Хиймэл
оюун ухаан шатар, даам, го зэрэг төгс мэдээлэлт тоглоомууд (perfect information games) дээр их мастеруудыг давж гарсан.
Deepmind-н Alphazero хэмээх бот бараг бүхий л төгс мэдээлэлт тоглоомоор
дэлхийн шилдэг ботууд, хүмүүсийг хожоод байна. Үүний нэг жишээ бол AlphaZero 2016 оны шатрын ботуудын дэлхийн аварга Stockfish 8-тай 100 өрөг тоглоход 28 хожиж 72 удаа тэнцэж нэг ч удаа
хожигдоогүй. Ингэж тоглохдоо AlphaZero
ердөө 9 цаг л
суралцсан байжээ. Мөн AlphaZero-г анх танилцуулсан эрдэм
шинжилгээний өгүүлэлд дурдсанаар шатар дээр 700000 сургалтын алхамын дараа AlphaZero-н рэйтингийг 3200
хүрсэн гэж
ойролцоолчилжээ. Гэтэл одоогийн шатрын дэлхийн аварга Magnus Carlsen-н рэйтинг 2855 байдаг байна.
Машин
сургалын алгоритмуудыг ашигласан ботууд нь зөвхөн төгс мэдээлэлт тоглоомууд
дээр хүнийг хол хаяад зогсохгүй төгс биш мэдээлэлт тоглоомууд (imperfect information games) дээр ч хүмүүсийг хожих боллоо.
Төгс биш мэдээлэлт тоглоомын хамгийн сайн жишээ бол покер юм. Хамгийн анхны
покер тоглох зориулалттай бот болох Orac
нь 1984
бүтээгдсэн бөгөөд энэ цаг үеэс хойш хүмүүс покер тоголдог ботуудыг сайжруулсаар
өдийг хүржээ. Хамгийн анх хүмүүстэй эн тэнцүү тоголсон бот бол 2008 онд Албертагийн
их сургуулийн бот Polaris нь 6 хүний эсрэг покер тоголж 3
хожиж 2 хожигдож 1 тэнцжээ. 2012
онд Лас Вегасын Bellagio гэх казино хэн ч тоголж хүчээ сорих боломжтой $2/$4 Limit Hold-em ботыг суурилуулжээ. Уг ботыг 2015 онд Албертагийн их
сургуулийн Cepheus гэх бот ялсан байна. 2017 онд Libratus бот тухайн цаг үеийн топ 4 тоглогчтой (Jason Les, Jiimy Chou, Deniel McAuley, Dong
Kim) покер тоголсон
байна. Энэхүү урт тоглолтуудын дараа Jason
Les -880,087 $ (–
нь алдсан гэсэн үг), Jimmy
Chou -522,875 $, Daniel McAuley -277,657 $ Dong Kim -85,649 $ байсан бол Libratus тэдгээр мөнгийг бүгдийн хожсон буюу +1766250 $ гэсэн үр
дүнд хүржээ. Мөн судлаачид хүн Libratus-с илүү покер тоглох магадлал хамгийн ихдээ 0.54% гэж тооцоолсон байна. Покерийн ботуудын
дунд жил бүр Annual Computer
Poker Competition (ACPC) гэх тэмцээн 2006 оноос 2018 оны хооронд зохиогдож байжээ. Хамгийн сүүлийн
жилийн аваргууд нь heads-up төрөлд Slumbot, 6 тоглогчтой төрөлд PokerBot5 нар юм. Эдгээр ботууд нь superhuman түвшний ботууд юм.
2020
оны 11 сард FacebookAI-с гаргасан “Combining Deep Reinforcement Learning and
Search for Imperfect-Information Games” судалгааны ажилд Rebel гэх төгс болон төгс биш мэдээлэлт тоглоомуудыг тоглох машин сургалтын
ерөнхий алгоритмыг танилцуулсан бөгөөд төгс мэдээлэлт тоглоом дээр Rebel нь AlphaZero
болдог. Өөрөөр
хэлбэл AlphaZero нь Rebel-ийн тухайн тохиолдол юм.
Rebel link: Paper.pdf(neurips.cc)
Alphazero link: 1712.01815.pdf (arxiv.org)
Мэдээ бэлтгэсэн: Мэдээллийн технологийн салбар, ЭША, Н.Даваасүрэн