Хиймэл оюуны сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг

Нийтлэсэн Н Хишигжаргал
2026-05-26
289

Anthropic компани “хиймэл оюуны муу, хорлонтой байдлаар дүрсэлсэн агуулгууд нь Claude-ийн шантааж хийх оролдлогод нөлөөлсөн” гэж мэдэгджээ.

Anthropic-ийн хэлснээр, хиймэл оюуны тухай зохиомол дүрслэлүүд нь хиймэл оюуны моделуудын бодит зан төлөвт нөлөөлөх боломжтой аж.

Өнгөрсөн жил тус компани зохиомол компанийн орчинд хийсэн урьдчилсан туршилтын үеэр Claude Opus 4 нь өөр системээр солигдохоос зайлсхийхийн тулд инженерүүдийг шантаажлах оролдлого ихэвчлэн хийж байсныг мэдээлсэн.

Дараа нь Anthropic бусад компаниудын хиймэл оюуны моделууд ч мөн адил “agentic misalignment” буюу бие даан ажиллах үед зорилгоосоо гажих, хүсээгүй зан төлөв үзүүлэхтэй холбоотой асуудалтай байж болохыг харуулсан судалгааг нийтэлжээ.

Үүнээс харахад Anthropic энэ зан төлөв дээр илүү их судалгаа хийсэн бололтой. Тус компани X дээрх нийтлэлдээ:

“Энэ зан төлөвийн анхны эх үүсвэр нь хиймэл оюуныг муу санаатай, өөрийгөө хамгаалах сонирхолтой байдлаар дүрсэлсэн интернетийн текстүүд байсан гэж бид үзэж байна.” гэж мэдэгджээ.

Мөн компанийн блог нийтлэлд дурдсанаар, Claude Haiku 4.5 загвараас хойш Anthropic-ийн моделууд “шантааж хийх үйлдэл огт үзүүлэхээ больсон” аж. Өмнөх моделууд туршилтын үеэр зарим тохиолдолд 96% хүртэл давтамжтайгаар ийм үйлдэл хийдэг байсан байна.

Тэгвэл энэ өөрчлөлтийн шалтгаан юу байсан бэ?

Компани “Claude-ийн үндсэн зарчим (constitution)-ын тухай баримт бичгүүд болон хиймэл оюунууд ёс зүйтэй, сайн үйлдэл хийж буй тухай зохиомол түүхүүдээр сургаснаар моделуудын alignment буюу зөв чиглүүлэлт сайжирсан” гэж тайлбарлажээ.

Үүнтэй холбоотойгоор Anthropic зөвхөн “зөв зан төлөвийн жишээ” үзүүлэхээс гадна, “яагаад тэр зан төлөв зөв болох үндсэн зарчмууд”-ыг хамтад нь сургах нь илүү үр дүнтэй болохыг олж тогтоосон байна.

Тус компани:

“Эдгээрийг хамтад нь хэрэгжүүлэх нь хамгийн үр дүнтэй стратеги юм.”

гэж мэдэгджээ.

Эх сурвалж: https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/

Мэдээ бэлтгэсэн: ЭША Н.Хишигжаргал

Бусад мэдээлэл

Танин мэдэхүй

CPU болон GPU хоорондын ялгаа ба хэрэглээ

Нийтлэсэн Билгүүн
1 сарын өмнө

Танин мэдэхүй

Эртний математик

Нийтлэсэн Хишигжаргал
1 сарын өмнө

Танин мэдэхүй

Generative AI буюу үүсгэгч хиймэл оюуны тухай

Нийтлэсэн Билгүүн
1 сарын өмнө

Танин мэдэхүй

Замгийн зогсолтгүй үржүүлгийг машин сургалтын аргаар оновчилж байна

Нийтлэсэн Билгүүн
1 сарын өмнө

Танин мэдэхүй

100% баталгаатай үр дүн өгдөг хиймэл оюуны математик систем бий боллоо.

Нийтлэсэн Хишигжаргал
1 сарын өмнө

Танин мэдэхүй

Компьютерийн харааны featup загвар

Нийтлэсэн Билгүүн
1 сарын өмнө

Хиймэл оюуны сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг

Бусад мэдээлэл

CPU болон GPU хоорондын ялгаа ба хэрэглээ

Эртний математик

Generative AI буюу үүсгэгч хиймэл оюуны тухай

Замгийн зогсолтгүй үржүүлгийг машин сургалтын аргаар оновчилж байна

100% баталгаатай үр дүн өгдөг хиймэл оюуны математик систем бий боллоо.

Компьютерийн харааны featup загвар

Сентинел хиймэл дагуулын ерөнхий танилцуулга

2026 онд хиймэл оюун ухааны агентууд хүний ажлыг орлох уу?

ДЭЛХИЙН ЦАГ АГААР, САНСРЫГ “ҮЙМҮҮЛДЭГ” ҮҮ?

QR код уншуулахдаа юуг анхаарах вэ?

Хиймэл оюунт туслах системүүд шинэ шатанд гарч байна

"Artemis II" хөлгийн гишүүд сансраас нарны хиртэлтийг анх удаа харжээ.

Эрүүл мэндийн үнэлгээ гаргадаг ухаалаг толийг танилцууллаа

Нейросуулгацын тусламжтайгаар хараагүй хүмүүсийн харааг сэргээх боломж бүрдэж байна.

Ангараг дээр суурьшил байгуулах боломж

Сонгодог геометрийн олон арван жилийн нууц тайлагдлаа: "Бонне"-гийн хос гадаргууг анх удаа илрүүлэв

ХЭРХЭН “ӨГӨГДЛИЙН ШИНЖЭЭЧ” БОЛОХ ВЭ?

Дэлхийн Монгол математикч Шарайн Мянгат

Өгөгдөл ба мэдээллийн тухай

ЕРТӨНЦИЙН ӨНГИЙГ БИД ХЭРХЭН ХАРДАГ ВЭ?

ХЭВИЙН ТАРХАЛТ БИДНИЙ АМЬДРАЛД...

МАТЕМАТИК БИДНИЙ ӨДӨР ТУТМЫН АМЬДРАЛД

ӨНГИЙГ ХЭРХЭН ХЭМЖДЭГ ВЭ?

СУДАЛГААНЫ ӨГӨГДЛИЙН МЕНЕЖМЕНТ

ПИФАГОР БА МАТЕМАТИК

Зургийн файлын форматыг ойлгох нь