Multimodal Large Language Model (MLLM)
Multimodal Large Language Model (MLLM)

 

Олон төрлийн мэдээлэлтэй ажилладаг том хэмжээний хэлний загвар (MLLM) гэдэг нь том хэмжээний хэлний загваруудын (LLM), жишээ нь GPT-3 эсвэл LLaMA-3, тархины чадварыг олон төрлийн мэдээлэлтэй (текст, зураг, дуу гэх мэт) ажиллах чадвартай нэг загварт нэгтгэсэн загвар юм.


Зураг 1
нь эрүүл мэндийн салбарт ашиглагдах олон төрлийн мэдээлэлтэй хиймэл оюун ухааны системийг үзүүлж байна [4]. Энэ систем нь хоёр төрлийн оролт хүлээн авдаг: 1) эмнэлгийн зураг, 2) текстэн асуулт: “Энэ зургад pleural effusion (цээжний усгүйжилт) байна уу?”. Системийн гаралт нь уг асуултад хариулсан (таамаглалаар) хариулт юм.

Архитектур
Зураг 2-д үзүүлснээр, MLLM-ийн архитектур нь гурван хэсэгт хуваагддаг:

  1. Мэдээллийн төрөл дамжуулагч (Modality encoder): Энэ нь дүрс эсвэл дуу зэрэг түүхий өгөгдлийн хэлбэрүүдийг илүү энгийн төлөөлөл болгон хувиргадаг. Сургалтыг эхнээс нь эхлэхийн оронд, түгээмэл стратеги бол урьдчилан сургасан дамжуулагчийг ашиглах (жишээ нь, CLIP), нь бусад мэдээллийн төрлүүдтэй тохируулагдсан байдаг.
  2. LLM-ийн үндсэн хэсэг (LLM backbone): Хэлний загвар нь текстээр хариулт өгөх шаардлагатай. Энэ нь MLLM-ийн "тархи" үүрэг гүйцэтгэдэг. Дамжуулагч нь зургийг, дуу эсвэл видеог оруулж, онцлог шинж чанаруудыг үүсгэдэг бөгөөд эдгээр нь холбох хэсэг (эсвэл мэдээллийн төрлүүдийн интерфейс)-ээр боловсруулагддаг.
  3. Мэдээллийн төрлүүдийн интерфейс (Modality interface, т.e. холбох хэсэг): Энэ нь дамжуулагч болон LLM-ийн хооронд дундын үүрэг гүйцэтгэдэг. Хэлний загварууд зөвхөн текстийг ойлгодог учраас, текстийг бусад мэдээллийн төрлүүдтэй үр дүнтэй холбох нь чухал байдаг.

 

Зураг 2 Multimodal model architecture

MLLM загварууд нь видео, зураг болон текстийг нэгтгэн боловсруулдаг тул спортын үзэгдлийг илүү нарийвчлалтайгаар ойлгох боломжийг олгодог. Энэ нь тоглолтын үеийн хөдөлгөөн, үйл явдлыг зөв тодорхойлж, тоглогчдыг болон тэдний байрлал, үйлдлийг илрүүлэх чадвартай.

 

Олон төрлийн мэдээлэлтэй том хэмжээний хэлний загвар (MLLM)-ийн хэрэглээ:

  1. Эрүүл мэндийн салбар: MLLM-ууд нь эмнэлгийн зураг болон текстийг хамтад нь боловсруулах чадвартай. Жишээ нь, цээжний усгүйжилт гэх мэт эмнэлгийн нөхцөл байдлыг илрүүлэхэд ашиглагддаг.
  2. Спортын аналитик: Спортын тоглолтод тоглогчдыг болон бөмбөгийг илрүүлэх, тоглолтын явц болон үйл явдлыг ойлгох зэрэгт MLLM-уудыг ашиглаж байна. Видео болон текстийг нэгтгэн, тоглогчдын байрлалыг илрүүлэхэд хэрэглэгдэнэ.
  3. Нийтлэл болон агуулгын үүсгэх: MLLM-ууд нь текст болон зураг, дуу зэрэг мэдээллийг ашиглан креатив агуулга үүсгэх чадвартай. Жишээ нь, текстийн дагуу зураг бүтээх (DALL·E загвар) эсвэл киноны тайлбар хийх.
  4. Боловсрол: Олон төрлийн мэдээлэлтэй загварууд нь сурагчдад текст, видео, дууны агуулгыг боловсруулж, илүү үр дүнтэй сургалтын системийг бий болгоход ашиглагддаг.
  5. Автомашины жолоодлого: Авто машины системүүд нь замын нөхцөл, зорчигчдын байрлал болон бусад мэдээллийг нэгтгэн жолоочийн тусламжийг үзүүлж, аюулгүй байдлыг хангаж байдаг.

Олон төрлийн мэдээлэлтэй том хэмжээний хэлний загвар (MLLM)-ийн давуу талууд:

  1. Олон төрлийн мэдээллийг нэгтгэн боловсруулдаг: MLLM-ууд текст, зураг, дуу, видео зэрэг олон төрлийн мэдээллийг хамтад нь боловсруулж, илүү нарийн, цогц ойлголт өгдөг. Жишээ нь, зураг болон текстийг холбож, нарийвчилсан хариулт өгч чаддаг.
  2. Бага мэдээлэлтэй орчинд сайн гүйцэтгэх: Олон төрлийн мэдээлэлтэй загварууд нь зөвхөн нэг төрлийн мэдээлэл дээр биш, олон төрлийн эх сурвалжийг ашиглан илүү сайн үр дүнд хүрэх боломжийг олгодог. Энэ нь загваруудыг бага хэмжээний өгөгдөл дээр ч илүү үр дүнтэй ашиглах боломжийг бүрдүүлнэ.
  3. Ухаалаг шийдвэр гаргах: MLLM-ууд нь дүрс болон текстийг хооронд нь холбож, урьдчилан таамаглах болон шийдвэр гаргах чадвартай. Жишээ нь, спортыг шинжлэхэд тоглогчдын хөдөлгөөн, текст мэдээллийг нэгтгэж, зөв хариулт өгнө.
  4. Цогц хэрэглээний хүрээ: MLLM-ууд нь зөвхөн текст, зураг, видео болон дууг ойлгох төдийгүй тэдгээрийг байнга шинэчилж, үр дүнтэй шийдлүүдийг гаргахад ашиглах боломжийг олгодог. Энэ нь зөвхөн эрүүл мэнд, спорт гэх мэт салбарт төдийгүй боловсрол, худалдаа, аюулгүй байдал зэрэг олон салбарт хэрэглэх боломжтой.
  5. Бүтээлч боломжууд: MLLM-ууд нь зураг, текст, видео зэрэг олон төрлийн мэдээллийг ашиглан шинэ бүтээл, агуулга үүсгэхэд хэрэглэгддэг. Энэ нь маркетинг, контент үүсгэх, дизайн зэрэг салбаруудыг хурдасгах боломжийг олгодог.
  6. Хэрэглэгчийн туршлага сайжрах: МLLM-ууд нь хэрэглэгчдийн оролтыг илүү оновчтой ойлгох бөгөөд хэрэглэгчийн асуултанд илүү нарийвчилсан, хувийн хариулт өгөх боломжтой. Энэ нь хэрэглэгчийн туршлагыг сайжруулахад чухал үүрэгтэй.

 

Эх сурвалж  https://medium.com/@tenyks_blogger/multimodal-large-language-models-mllms-transforming-computer-vision-76d3c5dd267f 

Мэдээ бэлтгэсэн: ЭША Н. Баатар

 

 

 


Бусад мэдээлэл