Прорыв в AI: Inception и MBZUAI представили SHERKALA – языковую модель, которая заговорила на казахском

90

13.03.2025

Компания Inception (G42) совместно с Университетом Искусственного Интеллекта Мохаммеда бин Зайеда (MBZUAI) при поддержке Cerebras, совершили настоящий прорыв, представив SHERKALA – первую высокоточную казахскую языковую модель (LLM). Этот инновационный проект направлен на расширение возможностей более 13 миллионов носителей казахского языка, обеспечивая им доступ к передовым технологиям генеративного ИИ.

SHERKALA – это модель с 8 млрд параметров, обученная на колоссальном объеме данных – 45 млрд слов. Главный фокус, конечно, сделан на казахском языке, но модель также поддерживает английский, русский и турецкий. В основе SHERKALA лежит Llama 3.1, адаптированная специально для казахского языка, с расширенным на 25% токенизатором, что значительно повышает эффективность понимания и генерации текста. Обучение этой мощной модели проходило на Condor Galaxy, одном из самых мощных суперкомпьютеров для искусственного интеллекта, созданном G42 и Cerebras.

«Запуск SHERKALA – это важный шаг в поддержке языковых сообществ, которые раньше были недостаточно представлены в AI. Вместе с MBZUAI мы создали модель, которая поможет носителям казахского языка и изменит рынок LLM, сделав технологии более доступными и эффективными. С моделями JAIS для арабского, NANDA для хинди и теперь SHERKALA для казахского мы продолжаем расширять границы AI и обеспечивать языковое разнообразие в цифровом мире«, — сказал Др. Эндрю Джексон, CEO Inception (G42).

SHERKALA задает новый стандарт для казахских языковых моделей, демонстрируя превосходное понимание и создание текстов. Благодаря эффективной работе с токенами и продвинутым диалоговым возможностям, она превосходит даже более крупные модели, в несколько раз превышающие ее по параметрам.

«Мы рады работать с Inception над SHERKALA — передовой казахской AI-моделью. Этот проект помогает развивающимся рынкам, делает AI доступнее, сохраняет язык и поддерживает цифровые сообщества», — отметил профессор Преслав Наков, заведующий кафедрой и профессор обработки естественного языка в MBZUAI.

SHERKALA уже доступна как open-source модель на платформе Hugging Face.