Министр подчеркнул, что для развития исследований в области ИИ определены два основных направления.
"Первое, это создание большой языковой модели на казахском языке (KazLLM) силами Назарбаев Университета и НИТ. Данная модель будет основана на 100 млрд токенов. Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проводиться национальный сбор данных, масштабная кампания по сбору данных на платформе Hugging Face", – дополнил Жаслан Мадиев.
По его словам, в настоящее время собрано 28 млрд токенов из открытых источников и порядка 100 терабайт данных из государственных и квазигосударственных органов, а также государственных архивов и СМИ.
"Параллельно будет разработана KazLLM совместно с международными компаниями. Партнером арабской стороны выступит НИТ. Данная модель будет основана на 30-40 млрд токенов на основе данных из открытых источников. Данный проект будет реализован на безвозмездной основе. Планируется представить первую версию KazLLM в декабре текущего года", – озвучил министр.
Он заявил, что к 2029 году планируется довести количество патентов в области ИИ до показателя не менее 20 в год.
В свою очередь, премьер-министр Олжас Бектенов поручил ускорить разработку казахстанской языковой модели KazLLM.
"МЦРИАП совместно с Министерством науки и Назарбаев Университетом – завершить до конца текущего года сбор данных для большой языковой модели KazLLM. Тренировка первой модели должна быть проведена уже в третьем квартале текущего года", – отметил Олжас Бектенов.
20 июня 2024 года министр цифрового развития, инноваций и аэрокосмической промышленности РК Жаслан Мадиев рассказал, на каком этапе находится создание казахского СhatGPT.