Тоглоом ба хиймэл оюун ухаан
Тоглоом ба хиймэл оюун ухаан


Хиймэл оюун ухаан шатар, даам, го зэрэг төгс мэдээлэлт тоглоомууд (perfect information games) дээр их мастеруудыг давж гарсан. Deepmind-н Alphazero хэмээх бот бараг бүхий л төгс мэдээлэлт тоглоомоор дэлхийн шилдэг ботууд, хүмүүсийг хожоод байна. Үүний нэг жишээ бол AlphaZero 2016 оны шатрын ботуудын дэлхийн аварга Stockfish 8-тай 100 өрөг тоглоход 28 хожиж 72 удаа тэнцэж нэг ч удаа хожигдоогүй. Ингэж тоглохдоо AlphaZero ердөө 9 цаг л суралцсан байжээ. Мөн AlphaZero-г анх танилцуулсан эрдэм шинжилгээний өгүүлэлд дурдсанаар шатар дээр 700000 сургалтын алхамын дараа AlphaZero-н рэйтингийг 3200 хүрсэн гэж ойролцоолчилжээ. Гэтэл одоогийн шатрын дэлхийн аварга Magnus Carlsen-н рэйтинг 2855 байдаг байна.

Машин сургалын алгоритмуудыг ашигласан ботууд нь зөвхөн төгс мэдээлэлт тоглоомууд дээр хүнийг хол хаяад зогсохгүй төгс биш мэдээлэлт тоглоомууд (imperfect information games) дээр ч хүмүүсийг хожих боллоо. Төгс биш мэдээлэлт тоглоомын хамгийн сайн жишээ бол покер юм. Хамгийн анхны покер тоглох зориулалттай бот болох Orac нь 1984 бүтээгдсэн бөгөөд энэ цаг үеэс хойш хүмүүс покер тоголдог ботуудыг сайжруулсаар өдийг хүржээ. Хамгийн анх хүмүүстэй эн тэнцүү тоголсон бот бол 2008 онд Албертагийн их сургуулийн бот Polaris нь 6 хүний эсрэг покер тоголж 3 хожиж 2 хожигдож 1 тэнцжээ. 2012 онд Лас Вегасын Bellagio гэх казино хэн ч тоголж хүчээ сорих боломжтой $2/$4 Limit Hold-em ботыг суурилуулжээ. Уг ботыг 2015 онд Албертагийн их сургуулийн Cepheus гэх бот ялсан байна. 2017 онд Libratus бот тухайн цаг үеийн топ 4 тоглогчтой (Jason Les, Jiimy Chou, Deniel McAuley, Dong Kim) покер тоголсон байна. Энэхүү урт тоглолтуудын дараа Jason Les -880,087 $ (– нь алдсан гэсэн үг), Jimmy Chou -522,875 $, Daniel McAuley -277,657 $ Dong Kim -85,649 $ байсан бол Libratus тэдгээр мөнгийг бүгдийн хожсон буюу +1766250 $ гэсэн үр дүнд хүржээ. Мөн судлаачид хүн Libratus-с илүү покер тоглох магадлал хамгийн ихдээ 0.54% гэж тооцоолсон байна. Покерийн ботуудын дунд жил бүр Annual Computer Poker Competition (ACPC) гэх тэмцээн 2006 оноос 2018 оны хооронд зохиогдож байжээ. Хамгийн сүүлийн жилийн аваргууд нь heads-up төрөлд Slumbot, 6 тоглогчтой төрөлд PokerBot5 нар юм. Эдгээр ботууд нь superhuman түвшний ботууд юм.

2020 оны 11 сард FacebookAI-с гаргасан “Combining Deep Reinforcement Learning and Search for Imperfect-Information Games” судалгааны ажилд Rebel гэх төгс болон төгс биш мэдээлэлт тоглоомуудыг тоглох машин сургалтын ерөнхий алгоритмыг танилцуулсан бөгөөд төгс мэдээлэлт тоглоом дээр Rebel нь AlphaZero болдог. Өөрөөр хэлбэл AlphaZero нь Rebel-ийн тухайн тохиолдол юм.

Rebel link:  Paper.pdf(neurips.cc)

Alphazero link:  1712.01815.pdf (arxiv.org)

Мэдээ бэлтгэсэн: Мэдээллийн технологийн салбар, ЭША, Н.Даваасүрэн


Бусад мэдээлэл