Атлас казахского NLP
Казахский NLP пережил взрыв в 2024–2026 — но рост сконцентрирован в речи и машинном переводе. Токенизация и морфология остаются тонкой, недокартированной границей. Именно там открыты контрибьюшены.
Хронология поля
объём работ по годамЛиния прорывов
мир ⟷ казахский · виден лагТерритории
по убыванию открытостиАрхитектура LLM
схема для новичков · и карта вкладаСначала — как вообще устроена LLM. Стрелки = поток данных; цвета те же, что в дереве ниже: где у казахского густо, где пусто. Клик по блоку — к слою и его работам.
Тот же скелет — но смотри, где для казахского пусто, и какие слои в обычном стеке вообще не нужны. Цвет = статус, число = объём работ, полоса = насколько слой закрыт. Клик по элементу — список работ.
Граф цитирований
размер = влияние · цвет = темаФлагманские модели
claim ≠ проверено| Модель | Год | Параметры | База | Vocab | Токенайзер | Морфология? | Бенчмарки? |
|---|---|---|---|---|---|---|---|
| Til-Core-0.5B Тіл Қазына (гос.) Громкий claim про морфологию, из метрик — только validation perplexity. Семейство 0.5B/1B (+Instruct). Независимых проверок нет. | 2026 | 497M | Qwen2-арх. (с нуля) | 256 000 | morphBPE — BPE с запретом слияний через морфемные границы (сегментатор BiLSTM) | ДА — но сегментатор не выложен | НЕТ — только val-PPL |
| Sherkala-Chat-8B Inception / MBZUAI Fertility казахского 4.73 → 2.04. Морфем-выравнивание не обсуждается. | 2025 | 8B | Llama-3.1 | 159 766 | расширенный BPE (+25% к Llama-3.1) | нет (fertility-driven) | да |
| SozKZ (50M–600M) S. Tukenov Аргумент через fertility, не через морфемные границы. | 2026 | 50–600M | Llama-arch | 50 000 | ByteLevel BPE с нуля на казахском | нет | частично |
| KazByte R. Akylzhanov Контрапункт всему полю: «tokenizer tax» решают, убирая токенайзер. «Валидация продолжается» — опубликованных результатов нет. | 2026 | adapter→Qwen2.5-7B | Qwen2.5 | — (byte-level) | обходит токенайзер целиком (байтовый адаптер) | n/a — нет токенайзера | НЕТ — position paper |
| KazLLM (8B / 70B) ISSAI / NU 150B+ токенов, 4 языка. Нет отдельной токенайзер-работы. | 2024 | 8B, 70B | Llama-3.1 | 128 256 (Llama-3.1) | наследует Llama-3.1, расширение не документировано | нет | да (task-perf) |
| Kaz-RoBERTa kz-transformers Ранний baseline. Используется в гибридных морфо-анализаторах. | 2023 | ~83M | RoBERTa | 52 000 | byte-level BPE (казахский + код-свитч RU диалоги) | нет | частично |
Незанятые земли
где открыт контрибьюшенНезависимый аудит морфем-выравнивания казахских токенайзеров
Никто не сравнивал несколько КАЗАХСКИХ токенайзеров (Kaz-RoBERTa, SozKZ, Sherkala, Til-Core) по морфемным границам на едином gold-стандарте. Arnett 2025 берёт казахский как 1 из 70 языков и только дженерик-токенайзеры; Duisenova 2026 строит новый, но не аудирует существующие.
ШИПАБЕЛЬНО на этой неделеЭмпирическая проверка claim Til-Core про морфологию
Til-Core вышел без единого downstream-бенчмарка (только validation perplexity) и с громким заявлением «поддержка казахской морфологии». Стань первым, кто измерил это независимо.
входит в аудитPrecision/F1 морфем-выравнивания для казахских токенайзеров
Оригинальный MorphScore (2024) меряет только recall границ; Arnett 2025 добавила precision/recall для казахского — но лишь для дженерик-токенайзеров (BLOOM, Llama, Gemma). Precision и F1 для КАЗАХСКИХ токенайзеров (Kaz-RoBERTa, SozKZ, Sherkala, Til-Core) никто не считал.
малая добавка к аудитуСовместная таблица fertility × morpheme-alignment
Sherkala репортит fertility, MorphScore-работа репортит alignment — но никто не свёл обе оси для казахских токенайзеров в одну таблицу.
средняяUsage-vs-morphology divergence (что носители реально говорят)
Морфологически правильная форма ≠ форма, которую носитель употребляет (напр. «біздің кітаптар» вместо «кітаптарымыз», «неге» как монолит). Это методологически не покрыто ни одной работой. Опрос носителей → новый угол.
мини-опрос, 30–50 ответовКорпус работ
arXiv + Semantic Scholar222 работы показано