Картография исследований · 2013 – 2026

Атлас казахского NLP

The State of Kazakh NLP Research

Казахский NLP пережил взрыв в 2024–2026 — но рост сконцентрирован в речи и машинном переводе. Токенизация и морфология остаются тонкой, недокартированной границей. Именно там открыты контрибьюшены.

222

работ в корпусе

2013–2026

годы

47%

за 2024–2026

про токенизацию

Хронология поля

объём работ по годам

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

2025

2026

▮ золотом — 2024–2026: эра LLM приходит в казахский

Линия прорывов

мир ⟷ казахский · виден лаг

🌍 Мир🇰🇿 Казахстан

2013

🌍 Мир

word2vec

Плотные векторные представления слов.

2014

🌍 Мир

seq2seq

Encoder-decoder: перевод как генерация.

2014

🌍 Мир

Attention (Bahdanau)

Выравнивание — конец bottleneck'а.

2016

🌍 Мир

BPE для NMT (Sennrich)

Subword-юниты → редкие слова и морфология становятся подъёмны.

2017

🌍 Мир

Transformer

«Attention is All You Need» — архитектура всей эпохи.

2018

🌍 Мир

BERT

Двунаправленный pretraining, перенос на задачи.

2019

🇰🇿 Казахстан

ASR / NMT в нейро-мейнстриме

WMT19 вводит kk–en; continuous ASR выходит в серию. Первые нейро-работы — 2015–2017.

2019

🌍 Мир

XLM-R

Мультиязычный pretraining на 100 языках — казахский внутри.

2020

🇰🇿 Казахстан

Kazakh Speech Corpus (KSC)

Фундаментальный датасет — хаб №1 в графе цитирований.

2020

🌍 Мир

GPT-3

In-context learning: масштаб как способность.

2021

🇰🇿 Казахстан

KazNERD + KazakhTTS

Первые открытые NER и TTS ресурсы для казахского.

2021

🌍 Мир

How Good is Your Tokenizer

Fertility: цена токенайзера для не-английского.

2022

🌍 Мир

Chinchilla

Compute-optimal: данных важнее, чем размера.

2023

🇰🇿 Казахстан

Kaz-RoBERTa

Одна из первых казахских предобученных моделей (BPE 52k, kz-transformers).

2023

🌍 Мир

LLaMA + Tokenizer Unfairness

Открытые веса → волна локальных адаптаций; токен-налог low-resource измерен (Petrov et al.).

2024

🇰🇿 Казахстан

KazLLM (ISSAI)

Первый крупный открытый казахский LLM (8B/70B, 150B+ токенов).

2024

🇰🇿 Казахстан

«Do LLMs Speak Kazakh?»

Пилотная системная оценка казахского у 7 моделей.

2024

🌍 Мир

MorphScore

Метрика морфем-выравнивания токенайзеров.

2025

🇰🇿 Казахстан

Sherkala-Chat

SOTA-чат на момент выхода, vocab 159k, fertility 4.73→2.04.

2026

🇰🇿 Казахстан

SozKZ

From-scratch SLM на казахском (50k BPE, 50–600M).

2026

🇰🇿 Казахстан

KazByte

Tokenizer-free: байтовый адаптер к Qwen2.5. Валидация продолжается.

2026

🇰🇿 Казахстан

Til-Core (гос.)

morphBPE 256k, громкий claim про морфологию, ни одного downstream-бенчмарка.

Территории

по убыванию открытости

◇Токенизация21

Тонкая граница. Бум — за 2024–2026. Независимого аудита морфем-выравнивания нет.

❖Морфология / сегментация48

Строят новые сегментаторы, но не аудируют, что делают существующие токенайзеры.

◈Языковые модели / LLM50

есть карта

▣Оценка / бенчмарки76

Бенчмарков мало, и они разрозненны. Til-Core вышел без единого downstream-бенчмарка.

✶Эмбеддинги22

есть карта

◐Классификация / сентимент26

есть карта

◎NER / извлечение55

есть карта

⇄Машинный перевод105

плотно

◉Речь (ASR / TTS)110

плотно

▤Датасеты / корпуса146

плотно

Архитектура LLM

схема для новичков · и карта вклада

Сначала — как вообще устроена LLM. Стрелки = поток данных; цвета те же, что в дереве ниже: где у казахского густо, где пусто. Клик по блоку — к слою и его работам.

Forward pass · как модель «думает»

Входказахский текст · «Менің атым…»

1Токенизациятекст → токены (subword / BPE)↳ агглютинативность → лишние токены (token-tax)

2Эмбеддинги + позиционкатокены → вектора, плюс порядок слов

3× N слоёвТрансформер-блоксердце модели — повторяется N разSelf-Attentionкто на кого смотрит в текстеFeed-Forward«думает» над каждым токеном↳ residual + LayerNorm вокруг каждого под-слоя

4Выходвероятности следующего токена → генерация

Training · как модель строят

КорпусПретрейнSFT / дообучениеRLHF / DPOОценкаСервинг

Стек казахского LLM

Тот же скелет — но смотри, где для казахского пусто, и какие слои в обычном стеке вообще не нужны. Цвет = статус, число = объём работ, полоса = насколько слой закрыт. Клик по элементу — список работ.

много работактивнонеполнопочти нет работ

Данные154 работы

Токенизация59 работ

Представления28 работ

Модель50 работ

Адаптация28 работ

Оценка76 работ

Инференс4 работы

Приложения210 работ

Граф цитирований

размер = влияние · цвет = тема

наведи · клик = детали · легенда = созвездие · колесо = зум · тащи фон

104 связанных работ + 15 мировых хабов · 312 рёбер цитирования · метод: s2-batch. Ещё 118 работ без рёбер — в списке ниже.

Флагманские модели

claim ≠ проверено

Модель	Год	Параметры	База	Vocab	Токенайзер	Морфология?	Бенчмарки?
Til-Core-0.5B Тіл Қазына (гос.) Громкий claim про морфологию, из метрик — только validation perplexity. Семейство 0.5B/1B (+Instruct). Независимых проверок нет.	2026	497M	Qwen2-арх. (с нуля)	256 000	morphBPE — BPE с запретом слияний через морфемные границы (сегментатор BiLSTM)	ДА — но сегментатор не выложен	НЕТ — только val-PPL
Sherkala-Chat-8B Inception / MBZUAI Fertility казахского 4.73 → 2.04. Морфем-выравнивание не обсуждается.	2025	8B	Llama-3.1	159 766	расширенный BPE (+25% к Llama-3.1)	нет (fertility-driven)	да
SozKZ (50M–600M) S. Tukenov Аргумент через fertility, не через морфемные границы.	2026	50–600M	Llama-arch	50 000	ByteLevel BPE с нуля на казахском	нет	частично
KazByte R. Akylzhanov Контрапункт всему полю: «tokenizer tax» решают, убирая токенайзер. «Валидация продолжается» — опубликованных результатов нет.	2026	adapter→Qwen2.5-7B	Qwen2.5	— (byte-level)	обходит токенайзер целиком (байтовый адаптер)	n/a — нет токенайзера	НЕТ — position paper
KazLLM (8B / 70B) ISSAI / NU 150B+ токенов, 4 языка. Нет отдельной токенайзер-работы.	2024	8B, 70B	Llama-3.1	128 256 (Llama-3.1)	наследует Llama-3.1, расширение не документировано	нет	да (task-perf)
Kaz-RoBERTa kz-transformers Ранний baseline. Используется в гибридных морфо-анализаторах.	2023	~83M	RoBERTa	52 000	byte-level BPE (казахский + код-свитч RU диалоги)	нет	частично

Незанятые земли

где открыт контрибьюшен

◆ ВЫ ЗДЕСЬ

Независимый аудит морфем-выравнивания казахских токенайзеров

Никто не сравнивал несколько КАЗАХСКИХ токенайзеров (Kaz-RoBERTa, SozKZ, Sherkala, Til-Core) по морфемным границам на едином gold-стандарте. Arnett 2025 берёт казахский как 1 из 70 языков и только дженерик-токенайзеры; Duisenova 2026 строит новый, но не аудирует существующие.

ШИПАБЕЛЬНО на этой неделе

◆ ВЫ ЗДЕСЬ

Эмпирическая проверка claim Til-Core про морфологию

Til-Core вышел без единого downstream-бенчмарка (только validation perplexity) и с громким заявлением «поддержка казахской морфологии». Стань первым, кто измерил это независимо.

входит в аудит

◆ ВЫ ЗДЕСЬ

Precision/F1 морфем-выравнивания для казахских токенайзеров

Оригинальный MorphScore (2024) меряет только recall границ; Arnett 2025 добавила precision/recall для казахского — но лишь для дженерик-токенайзеров (BLOOM, Llama, Gemma). Precision и F1 для КАЗАХСКИХ токенайзеров (Kaz-RoBERTa, SozKZ, Sherkala, Til-Core) никто не считал.

малая добавка к аудиту

○ открыто

Совместная таблица fertility × morpheme-alignment

Sherkala репортит fertility, MorphScore-работа репортит alignment — но никто не свёл обе оси для казахских токенайзеров в одну таблицу.

средняя

◆ ВЫ ЗДЕСЬ

Usage-vs-morphology divergence (что носители реально говорят)

Морфологически правильная форма ≠ форма, которую носитель употребляет (напр. «біздің кітаптар» вместо «кітаптарымыз», «неге» как монолит). Это методологически не покрыто ни одной работой. Опрос носителей → новый угол.

мини-опрос, 30–50 ответов