Точка входа · для первого вклада

Что можно сделать сейчас?

Open problems for your first contribution

Не нужно изобретать новую парадигму. Поле полно конкретных, недокрытых дыр и заявлений, которые никто не проверил. Ниже — болевые точки и непроверенные гипотезы казахского NLP, каждая с цитатой на реальную работу. Бери ту, что по силам, и делай первый вклад.

Как читать. «Болевые точки» — то, чего в поле не хватает (данные, бенчмарки, метрики); у каждой — конкретный первый шаг. «Непроверенные гипотезы» — то, что заявлено или подразумевается, но не доказано; у каждой — как это протестировать. Бейдж сложности: лёгкий старт подходит для первой работы.

Болевые точки

12 · с цитатами

Токенизациялёгкий старт

Высокая «стоимость токенизации» казахского текста

Многоязычные токенизаторы (BPE, SentencePiece), обученные преимущественно на высокоресурсных языках, фрагментируют казахские слова в 3–5 раз больше, чем английские — это укорачивает эффективное контекстное окно и увеличивает стоимость вычислений. KazByte называет этот «tokenizer tax» главной мотивацией, SozKZ обходит проблему обучением токенизатора с нуля.

Первый шагИзмерить fertility существующих токенизаторов (GPT-4o, LLaMA-3, Qwen2.5) на стандартизированном казахском тексте и сравнить с турецким и английским бейслайнами.

arXiv:2603.27859 ↗arXiv:2603.20854 ↗arXiv:2503.01493 ↗

Морфология / сегментациясредне

Нет стандартизированного бенчмарка для морфологии

Несмотря на множество работ по морфоанализу казахского, нет единого публичного набора с золотой разметкой морфемных границ и POS-тегов для воспроизводимого сравнения. Разные схемы аннотации делают сопоставление результатов невозможным.

Первый шагСобрать 1000–2000 предложений из открытых источников (KazNERD, Wikipedia), разметить морфемы по единой схеме и опубликовать как микробенчмарк.

источник ↗источник ↗источник ↗

Датасеты / корпусасредне

Слабая поддержка казахско-русского кодового переключения

Носители регулярно переключаются между казахским и русским в одном высказывании (intra-sentential code-switching), но большинство ASR/NLP-систем обучены на монолингвальных данных. KSC2 содержит такие образцы (доля не раскрыта), а специализированных датасетов почти нет.

Первый шагНа базе открытого датасета отзывов (100K Movie Reviews from Kazakhstan) разметить долю code-switched фраз и опубликовать статистику как baseline.

arXiv:2503.20007 ↗источник ↗arXiv:2605.08600 ↗

Оценка / бенчмаркилёгкий старт

Нет унифицированного набора метрик оценки LLM

Бенчмарки для казахского фрагментированы: KazMMLU, TUMLU, KazQAD, Qorgau, KZ-SafetyPrompts используют разные протоколы, модели и метрики. Объективно сравнить прогресс между работами нельзя — нет единого leaderboard.

Первый шагПрогнать 3–5 публичных LLM на всех существующих казахских бенчмарках по единому протоколу и опубликовать сравнительную таблицу.

arXiv:2502.12829 ↗arXiv:2502.11020 ↗arXiv:2404.04487 ↗arXiv:2502.13640 ↗

Речь (ASR / TTS)средне

ASR для спонтанной и детской речи почти отсутствует

Большинство казахских ASR обучены на дикторской речи (новости, книги, парламент). Детская речь, спонтанный диалог, телефонные разговоры и акцент представлены минимально: единственный корпус детской речи покрывает детей 2–8 лет (Telegram-бот, диктофоны, домашние записи).

Первый шагНа доступных KSC2 и Common Voice провести анализ ошибок WER в разбивке по акценту, полу и возрасту дикторов и опубликовать диагностику.

источник ↗arXiv:2009.10334 ↗источник ↗

Датасеты / корпусалёгкий старт

OCR для арабского и латинского казахского письма почти не существует

KazakhOCR показал, что все мультимодальные LLM (Gemma-3, Qwen2.5-VL, Llama-3.2-Vision) проваливаются на казахском арабском и латинском скриптах, путая их с арабским, персидским и курдским. Публичного датасета реальных (не синтетических) изображений нет.

Первый шагСобрать 200–500 фото реальных вывесок, газет и документов на казахском арабском/латинском письме, разметить и опубликовать как малый benchmark.

arXiv:2603.13238 ↗arXiv:2110.04075 ↗arXiv:2007.03579 ↗

Речь (ASR / TTS)средне

Эмоциональные / паралингвистические ресурсы ограничены одним датасетом

KazEmoTTS — первый публичный корпус эмоциональной казахской речи (74,85 ч, 6 эмоций). Для распознавания эмоций в спонтанной речи и мультимодального анализа этого мало. Probing Whisper показал, что эмоция концентрируется в средних слоях, но downstream-экспериментов нет.

Первый шагДообучить open-source модель распознавания эмоций на KazEmoTTS и сделать zero-shot оценку на Common Voice Kazakh для бейслайна.

arXiv:2404.01033 ↗источник ↗источник ↗

NER / извлечениесредне

NER не охватывает специализированные домены (медицина, право)

KazNERD обучен на телевизионных новостях. Юридические, медицинские и научные тексты имеют иную терминологию и сущности; в работе по post-editing перевода файнтюнинг дал наибольший прирост качества именно в юридическом (+17%) и медицинском (+22%) доменах — признак наибольшего запаса ошибок.

Первый шагВзять открытые казахские нормативные акты (data.egov.kz), разметить 500 предложений по схеме KazNERD и оценить zero-shot перенос существующих моделей.

arXiv:2111.13419 ↗источник ↗

Машинный переводлёгкий старт

Параллельные корпуса для большинства языковых пар малы

KazParC — первый крупный публичный параллельный корпус (kk–en–ru–tr, ~372K предложений), но покрывает лишь 4 языка. Пары kk–zh, kk–uz, kk–ky используются в обучении, но проверенных корпусов минимум, что ограничивает качество перевода.

Первый шагС помощью NLLB и монолингвальных корпусов построить синтетический параллельный датасет kk–uz или kk–ky и оценить его через back-translation BLEU.

arXiv:2403.19399 ↗arXiv:2602.04442 ↗источник ↗

Классификация / сентиментлёгкий старт

Датасеты тональности охватывают только отзывы, не все жанры

KazSAnDRA — крупнейший публичный датасет тональности (180K), но состоит только из потребительских отзывов. Новости, соцсети, политические заявления почти не представлены, что ограничивает применимость классификаторов.

Первый шагРазметить 500–1000 казахских новостных заголовков по трёхклассовой схеме тональности и оценить перенос модели KazSAnDRA.

arXiv:2403.19335 ↗arXiv:2605.08600 ↗

Эмбеддингилёгкий старт

У эмбеддингов нет стандартного intrinsic-бенчмарка

Кросс-языковые эмбеддинги для тюркских языков изучались, но для казахского нет публичного набора аналогий или SimLex-подобного ресурса, позволяющего сравнивать качество эмбеддингов без downstream-задачи.

Первый шагПеревести подмножество SimLex-999 или BATS на казахский с носителями и опубликовать как первый intrinsic-бенчмарк для казахских эмбеддингов.

arXiv:2005.08340 ↗arXiv:2604.06202 ↗

Речь (ASR / TTS)лёгкий старт

Пунктуация и нормализация ASR-вывода почти не изучены

Единственная работа по восстановлению пунктуации/капитализации для казахского использует только Wikipedia и книги и сообщает низкий F1 для редких знаков (восклицательный: F1=32.85). Нормализация ASR-вывода в реальных приложениях не решена.

Первый шагДообучить punctuation-restoration модель на транскрипциях KSC2 и сравнить с Wikipedia-бейслайном по F1 для всех классов знаков.

источник ↗источник ↗

Непроверенные гипотезы

8 · можно протестировать

оспариваетсясредне

Морфологически осведомлённая сегментация улучшает downstream-задачи на казахском по сравнению с BPE

Интуиция «учёт морфемных границ должен помогать агглютинативным языкам» широко распространена. Но Sälevä & Lignos (2021) на en–kk (одной из трёх пар в работе) показали, что морфо-методы (LMVR, MORSEL) не дают стабильного преимущества над BPE — лучший метод варьируется, результаты статистически неразличимы.

Как проверитьСравнить BPE-токенизатор SozKZ (50K) с морфо-сегментатором (Morfessor) на трёх задачах — NER, MT, masked LM — по единому протоколу на одних данных.

arXiv:2103.11189 ↗arXiv:2603.20854 ↗

не провереносредне

Байтовая (byte-level) токенизация превосходит BPE для казахского из-за агглютинативности

KazByte выдвигает гипотезу, что сырые байты через адаптер к замороженному Qwen2.5-7B сравняются или превзойдут оригинал. Авторы прямо пишут «эмпирическая валидация продолжается» — опубликованных сравнений нет. Для других языков byte-level не дал однозначного преимущества.

Как проверитьДообучить ByT5-small на казахском (OSCAR/CC100) и сравнить с BPE-моделью того же размера на KazMMLU и KazQAD.

arXiv:2603.27859 ↗arXiv:2603.20854 ↗

допущениесредне

Перенос от турецкого эффективнее переноса от русского для казахских задач

Типологическая близость казахского и турецкого (агглютинация, гармония гласных, SOV) часто приводится как обоснование cross-lingual transfer, но систематического сравнения «от турецкого vs от русского» на фиксированных задачах (NER, SA, QA) нет.

Как проверитьДообучить модели на турецких и русских данных одного объёма, затем fine-tune на KazNERD и сравнить F1 на тесте.

arXiv:2604.06202 ↗источник ↗arXiv:2603.21036 ↗

не проверенолёгкий старт

Рассуждение на английском с переводом ответа на казахский сохраняет качество у современных LLM

«Left Behind» (2026) показал, что cross-lingual transfer (CoT на английском → перевод) даёт прирост только для двуязычных архитектур и не работает для English-dominant моделей. Тем не менее стратегия часто предполагается рабочей без проверки на казахских бенчмарках.

Как проверитьНа KazMMLU/KazQAD сравнить три режима — прямой ответ на казахском, CoT на казахском, CoT на английском + перевод — для 3–5 моделей.

arXiv:2603.21036 ↗arXiv:2502.12829 ↗arXiv:2604.20531 ↗

не провереноамбициозно

Увеличение размера словаря токенизатора значимо улучшает downstream-качество казахских LLM

SozKZ использует 50K BPE вместо 32K и показывает конкурентные результаты, но без ablation влияния именно размера словаря при фиксированном числе токенов. Sherkala обучен с расширенным словарём, но сравнения по словарю не проводилось.

Как проверитьОбучить три идентичные модели (архитектура, данные) со словарём 16K/32K/64K BPE и сравнить fertility, перплексию и F1 на NER.

arXiv:2603.20854 ↗arXiv:2503.01493 ↗

не проверенолёгкий старт

Синтетических данных из TTS достаточно для bootstrap ASR без реальных записей

Работа по распознаванию речевых команд (2023) дала 89.79% на TTS-синтезе. Но обобщение на непрерывную спонтанную речь не доказано: TTS даёт читаемую, а не разговорную речь, что чревато domain shift при развёртывании.

Как проверитьДообучить Whisper только на синтезе KazakhTTS2 и сравнить WER на трёх доменах (KSC2 news, Common Voice, спонтанный чат) с моделью на реальных данных.

источник ↗arXiv:2201.05771 ↗источник ↗

не проверенолёгкий старт

Промпты на казахском систематически безопаснее русских у одних и тех же LLM

Qorgau показывает различия в safety-поведении между казахским и русским, но направление эффекта неоднородно по категориям. KZ-SafetyPrompts: GPT-4o отказывает в 28.2% казахских промптов (разброс 5.5–53.8%), но систематического kk-vs-ru сравнения на идентичных промптах нет.

Как проверитьВзять 200 промптов из Qorgau/KZ-SafetyPrompts, перевести с русского на казахский носителем и сравнить refusal rate одной модели на обеих версиях.

arXiv:2502.13640 ↗arXiv:2605.26947 ↗

не провереносредне

Малая модель с нуля на казахском превосходит крупную многоязычную при равном бюджете инференса

SozKZ-600M приближается к LLaMA-3.2-1B (30.3% vs 32.0% на cultural QA) и обходит 2B-многоязычные на SIB-200 — косвенная поддержка. Но прямого сравнения при равном бюджете инференса (FLOPS/latency) с Sherkala нет, результатов на KazQAD/KazNERD тоже.

Как проверитьСравнить SozKZ-600M с quantized Sherkala-8B на KazMMLU/KazQAD/KazNERD при равном ограничении latency (≤100ms CPU) и зафиксировать accuracy-throughput trade-off.

arXiv:2603.20854 ↗arXiv:2503.01493 ↗arXiv:2502.12829 ↗

← назад в Атлас