Хиймэл оюуны сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг
Хиймэл оюуны сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг

Anthropic компани “хиймэл оюуны  муу, хорлонтой байдлаар дүрсэлсэн агуулгууд нь Claude-ийн шантааж хийх оролдлогод нөлөөлсөн” гэж мэдэгджээ.
Anthropic-ийн хэлснээр, хиймэл оюуны тухай зохиомол дүрслэлүүд нь хиймэл оюуны   моделуудын бодит зан төлөвт нөлөөлөх боломжтой аж.

Өнгөрсөн жил тус компани зохиомол компанийн орчинд хийсэн урьдчилсан туршилтын үеэр Claude Opus 4 нь өөр системээр солигдохоос зайлсхийхийн тулд инженерүүдийг шантаажлах оролдлого ихэвчлэн хийж байсныг мэдээлсэн.

Дараа нь Anthropic бусад компаниудын хиймэл оюуны   моделууд ч мөн адил “agentic misalignment” буюу бие даан ажиллах үед зорилгоосоо гажих, хүсээгүй зан төлөв үзүүлэхтэй холбоотой асуудалтай байж болохыг харуулсан судалгааг нийтэлжээ.

Үүнээс харахад Anthropic энэ зан төлөв дээр илүү их судалгаа хийсэн бололтой. Тус компани X дээрх нийтлэлдээ:


“Энэ зан төлөвийн анхны эх үүсвэр нь хиймэл оюуныг муу санаатай, өөрийгөө хамгаалах сонирхолтой байдлаар дүрсэлсэн интернетийн текстүүд байсан гэж бид үзэж байна.” гэж мэдэгджээ.

Мөн компанийн блог нийтлэлд дурдсанаар, Claude Haiku 4.5 загвараас хойш Anthropic-ийн моделууд “шантааж хийх үйлдэл огт үзүүлэхээ больсон” аж. Өмнөх моделууд туршилтын үеэр зарим тохиолдолд 96% хүртэл давтамжтайгаар ийм үйлдэл хийдэг байсан байна.

Тэгвэл энэ өөрчлөлтийн шалтгаан юу байсан бэ?

Компани “Claude-ийн үндсэн зарчим (constitution)-ын тухай баримт бичгүүд болон хиймэл оюунууд ёс зүйтэй, сайн үйлдэл хийж буй тухай зохиомол түүхүүдээр сургаснаар моделуудын alignment буюу зөв чиглүүлэлт сайжирсан” гэж тайлбарлажээ.

Үүнтэй холбоотойгоор Anthropic зөвхөн “зөв зан төлөвийн жишээ” үзүүлэхээс гадна, “яагаад тэр зан төлөв зөв болох үндсэн зарчмууд”-ыг хамтад нь сургах нь илүү үр дүнтэй болохыг олж тогтоосон байна.

Тус компани:

“Эдгээрийг хамтад нь хэрэгжүүлэх нь хамгийн үр дүнтэй стратеги юм.”

гэж мэдэгджээ.

 

 

Эх сурвалж: https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/

Мэдээ бэлтгэсэн: ЭША Н.Хишигжаргал


Бусад мэдээлэл