Что можно сделать сейчас?
Не нужно изобретать новую парадигму. Поле полно конкретных, недокрытых дыр и заявлений, которые никто не проверил. Ниже — болевые точки и непроверенные гипотезы казахского NLP, каждая с цитатой на реальную работу. Бери ту, что по силам, и делай первый вклад.
Болевые точки
12 · с цитатамиВысокая «стоимость токенизации» казахского текста
Многоязычные токенизаторы (BPE, SentencePiece), обученные преимущественно на высокоресурсных языках, фрагментируют казахские слова в 3–5 раз больше, чем английские — это укорачивает эффективное контекстное окно и увеличивает стоимость вычислений. KazByte называет этот «tokenizer tax» главной мотивацией, SozKZ обходит проблему обучением токенизатора с нуля.
Нет стандартизированного бенчмарка для морфологии
Несмотря на множество работ по морфоанализу казахского, нет единого публичного набора с золотой разметкой морфемных границ и POS-тегов для воспроизводимого сравнения. Разные схемы аннотации делают сопоставление результатов невозможным.
Слабая поддержка казахско-русского кодового переключения
Носители регулярно переключаются между казахским и русским в одном высказывании (intra-sentential code-switching), но большинство ASR/NLP-систем обучены на монолингвальных данных. KSC2 содержит такие образцы (доля не раскрыта), а специализированных датасетов почти нет.
Нет унифицированного набора метрик оценки LLM
Бенчмарки для казахского фрагментированы: KazMMLU, TUMLU, KazQAD, Qorgau, KZ-SafetyPrompts используют разные протоколы, модели и метрики. Объективно сравнить прогресс между работами нельзя — нет единого leaderboard.
ASR для спонтанной и детской речи почти отсутствует
Большинство казахских ASR обучены на дикторской речи (новости, книги, парламент). Детская речь, спонтанный диалог, телефонные разговоры и акцент представлены минимально: единственный корпус детской речи покрывает детей 2–8 лет (Telegram-бот, диктофоны, домашние записи).
OCR для арабского и латинского казахского письма почти не существует
KazakhOCR показал, что все мультимодальные LLM (Gemma-3, Qwen2.5-VL, Llama-3.2-Vision) проваливаются на казахском арабском и латинском скриптах, путая их с арабским, персидским и курдским. Публичного датасета реальных (не синтетических) изображений нет.
Эмоциональные / паралингвистические ресурсы ограничены одним датасетом
KazEmoTTS — первый публичный корпус эмоциональной казахской речи (74,85 ч, 6 эмоций). Для распознавания эмоций в спонтанной речи и мультимодального анализа этого мало. Probing Whisper показал, что эмоция концентрируется в средних слоях, но downstream-экспериментов нет.
NER не охватывает специализированные домены (медицина, право)
KazNERD обучен на телевизионных новостях. Юридические, медицинские и научные тексты имеют иную терминологию и сущности; в работе по post-editing перевода файнтюнинг дал наибольший прирост качества именно в юридическом (+17%) и медицинском (+22%) доменах — признак наибольшего запаса ошибок.
Параллельные корпуса для большинства языковых пар малы
KazParC — первый крупный публичный параллельный корпус (kk–en–ru–tr, ~372K предложений), но покрывает лишь 4 языка. Пары kk–zh, kk–uz, kk–ky используются в обучении, но проверенных корпусов минимум, что ограничивает качество перевода.
Датасеты тональности охватывают только отзывы, не все жанры
KazSAnDRA — крупнейший публичный датасет тональности (180K), но состоит только из потребительских отзывов. Новости, соцсети, политические заявления почти не представлены, что ограничивает применимость классификаторов.
У эмбеддингов нет стандартного intrinsic-бенчмарка
Кросс-языковые эмбеддинги для тюркских языков изучались, но для казахского нет публичного набора аналогий или SimLex-подобного ресурса, позволяющего сравнивать качество эмбеддингов без downstream-задачи.
Пунктуация и нормализация ASR-вывода почти не изучены
Единственная работа по восстановлению пунктуации/капитализации для казахского использует только Wikipedia и книги и сообщает низкий F1 для редких знаков (восклицательный: F1=32.85). Нормализация ASR-вывода в реальных приложениях не решена.
Непроверенные гипотезы
8 · можно протестироватьМорфологически осведомлённая сегментация улучшает downstream-задачи на казахском по сравнению с BPE
Интуиция «учёт морфемных границ должен помогать агглютинативным языкам» широко распространена. Но Sälevä & Lignos (2021) на en–kk (одной из трёх пар в работе) показали, что морфо-методы (LMVR, MORSEL) не дают стабильного преимущества над BPE — лучший метод варьируется, результаты статистически неразличимы.
Байтовая (byte-level) токенизация превосходит BPE для казахского из-за агглютинативности
KazByte выдвигает гипотезу, что сырые байты через адаптер к замороженному Qwen2.5-7B сравняются или превзойдут оригинал. Авторы прямо пишут «эмпирическая валидация продолжается» — опубликованных сравнений нет. Для других языков byte-level не дал однозначного преимущества.
Перенос от турецкого эффективнее переноса от русского для казахских задач
Типологическая близость казахского и турецкого (агглютинация, гармония гласных, SOV) часто приводится как обоснование cross-lingual transfer, но систематического сравнения «от турецкого vs от русского» на фиксированных задачах (NER, SA, QA) нет.
Рассуждение на английском с переводом ответа на казахский сохраняет качество у современных LLM
«Left Behind» (2026) показал, что cross-lingual transfer (CoT на английском → перевод) даёт прирост только для двуязычных архитектур и не работает для English-dominant моделей. Тем не менее стратегия часто предполагается рабочей без проверки на казахских бенчмарках.
Увеличение размера словаря токенизатора значимо улучшает downstream-качество казахских LLM
SozKZ использует 50K BPE вместо 32K и показывает конкурентные результаты, но без ablation влияния именно размера словаря при фиксированном числе токенов. Sherkala обучен с расширенным словарём, но сравнения по словарю не проводилось.
Синтетических данных из TTS достаточно для bootstrap ASR без реальных записей
Работа по распознаванию речевых команд (2023) дала 89.79% на TTS-синтезе. Но обобщение на непрерывную спонтанную речь не доказано: TTS даёт читаемую, а не разговорную речь, что чревато domain shift при развёртывании.
Промпты на казахском систематически безопаснее русских у одних и тех же LLM
Qorgau показывает различия в safety-поведении между казахским и русским, но направление эффекта неоднородно по категориям. KZ-SafetyPrompts: GPT-4o отказывает в 28.2% казахских промптов (разброс 5.5–53.8%), но систематического kk-vs-ru сравнения на идентичных промптах нет.
Малая модель с нуля на казахском превосходит крупную многоязычную при равном бюджете инференса
SozKZ-600M приближается к LLaMA-3.2-1B (30.3% vs 32.0% на cultural QA) и обходит 2B-многоязычные на SIB-200 — косвенная поддержка. Но прямого сравнения при равном бюджете инференса (FLOPS/latency) с Sherkala нет, результатов на KazQAD/KazNERD тоже.