Өгөгдөл цэвэрлэх нь машин сургалтын хамгийн чухал хэсгүүдийн нэг бөгөөд модел байгуулахад чухал үүрэг гүйцэтгэдэг. Хүн бүр л өгөгдлөө цэвэрлэж ажилладаг боловч үнэндээ хэн ч энэ талаар тодорхой зүйл ярьдаггүй. Өгөгдлийг зөв цэвэрлэхээс таны модел амжилттай болох үгүй нь хамаарна. Мэргэжлийн өгөгдөл судлаач нар энэ алхам дээр төслийнхөө ихэнхи цагийг зарцуулдаг. Тэд “Сайн өгөгдөл алгоритмыг оновчтой болгодог” гэж үздэг. Хэрэв маш сайн цэвэрлэж бэлтгэсэн өгөгдлийн цуглуулгатай болж чадвал энгийн алгоритмаар ч гэсэн хүссэн үр дүнгээ гарган авах боломжтой бөгөөд ашиг тус ихтэй юм. Мэдээж хэрэг өгөгдлийн төрлөөс хамааран өөр өөр төрлийн цэвэрлэгээ шаардагдана. Гэхдээ дараах системчилсэн арга нь өгөгдлөө цэвэрлэх эхлэлийг гайгүй тавьж чадна гэж итгэж байна.
Өгөгдөл цэвэрлэх алхамууд:
1. Шаардлагагүй
утгуудыг арилгах
Энэ нь өгөгдлийн цуглуулгаас давхардсан, шаардлагагүй, хамааралгүй утгуудыг устгахыг хэлнэ. Өгөгдөл цуглуулах явцад давхардсан утгууд их гардаг бөгөөд ийм хамааралгүй утгууд нь таны шийдэх гэж буй асуудалд шаардлагагүй.
2. Бүтцийн алдааг засах
Хэмжилт хийх, өгөгдөл дамжуулах эсвэл өөр ижил төстэй тохиолдолд гарсан алдааг бүтцийн алдаа гэж нэрлэдэг. Бүтцийн алдаанд утгуудын нэр, өөр нэртэй ижил атрибут, буруу бичсэн класс зэрэг орно. Ийм зарим бүтцийн алдаа нь моделыг үр ашиггүй болгож, чанар муутай үр дүн гаргадаг.
3. Шаардлагагүй хэсгүүдийг зохицуулах
Ийм хэсгүүд зарим төрлийн моделиудад асуудал үүсгэдэг. Ерөнхийдөө ийм хэсгүүдийг устгах баттай шалтгаантай болтлоо шууд арилгаж болдоггүй. Заримдаа эдгээрийг устгах нь гүйцэтгэлийг сайжруулдаг ч заримдаа бол үгүй. Тэгэхээр жинхэнэ өгөгдөлтэй төсгүй сэжиг бүхий хэмжилт зэрэг нь тухайн хэсгийг устгаж болох шалтгаан болж болох юм.
4. Дутуу өгөгдлийг зохицуулах
Дутуу өгөгдөл нь машин сургалтыг төвөгтэй болгодог асуудал
юм. Өгөдлийн дутуу хэсгүүдийг тоохгүй орхиж эсвэл шууд хасаж чадахгүй. Энэ нь ямар
нэг чухал зүйлийн шинж байж болзошгүй тул болгоомжтой хандах хэрэгтэй. Дутуу өгөгдлүүдийг
шийдэх хоёр түгээмэл арга байдаг. Үүнд:
Энэ хоёр арга хоёулаа бүрэн оновчтой биш. Яагаад гэвэл өгөгдөл хасагдахад мэдээлэл дагаад хасагдана гэсэн үг, ингэснээр бид өгөгдлийг нэмж бөгөлсөн ч энэ нь бодит утга нь биш учраас мэдээллийг алдаатай болоход хүргэж болзошгүй. Хоосон өгөгдөл нь эвлүүлдэг puzzle-ийн хэсэг дутсантай л адил.
Өгөгдөл цэвэрлэхэд ашигладаг зарим технологиуд:
Ингээд бид өгөгдлийг илүү найдвартай болгож, сайн үр дүн боловсруулахын тулд өгөгдөл цэвэрлэдэг дөрвөн төрлийн алхамуудыг дурьдлаа. Өгөгдөл цэвэрлэх алхамуудыг зөв хийснээр та бүхэн түгээмэл тохиолддог эрсдэлээс зайлсхийх чадвартай, найдвартай өгөгдлийн цуглуулгатай болж чадна.
Мэдээ бэлтгэсэн: МТТХ-ийн Мэдээллийн технологийн салбарын ЭША Б.Отгонсувд
Эх сурвалж: https://www.geeksforgeeks.org/