
“Энэ зан төлөвийн анхны эх үүсвэр нь хиймэл оюуныг муу санаатай, өөрийгөө хамгаалах сонирхолтой байдлаар дүрсэлсэн интернетийн текстүүд байсан гэж бид үзэж байна.” гэж мэдэгджээ.
Мөн компанийн блог нийтлэлд дурдсанаар, Claude Haiku 4.5 загвараас хойш Anthropic-ийн моделууд “шантааж хийх үйлдэл огт үзүүлэхээ больсон” аж. Өмнөх моделууд туршилтын үеэр зарим тохиолдолд 96% хүртэл давтамжтайгаар ийм үйлдэл хийдэг байсан байна.
Тэгвэл энэ өөрчлөлтийн шалтгаан юу байсан бэ?
Компани “Claude-ийн үндсэн зарчим (constitution)-ын тухай баримт бичгүүд болон хиймэл оюунууд ёс зүйтэй, сайн үйлдэл хийж буй тухай зохиомол түүхүүдээр сургаснаар моделуудын alignment буюу зөв чиглүүлэлт сайжирсан” гэж тайлбарлажээ.
Үүнтэй холбоотойгоор Anthropic зөвхөн “зөв зан төлөвийн жишээ” үзүүлэхээс гадна, “яагаад тэр зан төлөв зөв болох үндсэн зарчмууд”-ыг хамтад нь сургах нь илүү үр дүнтэй болохыг олж тогтоосон байна.
Тус компани:
“Эдгээрийг хамтад нь хэрэгжүүлэх нь хамгийн үр дүнтэй стратеги юм.”
гэж мэдэгджээ.
Эх сурвалж: https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/
Мэдээ бэлтгэсэн: ЭША Н.Хишигжаргал