Атлас · Уроки

Собрать LLM с нуля

Интерактивный курс по тому, как на самом деле устроена языковая модель — от биграммы в браузере до трансформера. Учим на мировых основополагающих работах, затем привязываем каждый слой к тому, где стоит казахский.

global-first — мировой канонKazakh-second — связь с деревом вклада

01~75 минурок

Что такое языковая модель?

Забудь про GPT-4 на минуту. Каждая LM, что когда-либо существовала, делает одно: P(следующий токен | прошлые). Биграмма в браузере, токенизация, эмбеддинги, тепловая карта.

на основе: Bengio et al. 2003 · Mikolov et al. 2013 · Sennrich et al. 2015

02~90 минскоро

От счётчиков к нейронам (MLP)

Заменяем таблицу биграмм на маленькую нейросеть. Та же задача, умнее представление.

на основе: Bengio et al. 2003

03~80 минскоро

Эмбеддинги: смысл из контекста

word2vec и почему «king − man + woman ≈ queen». Смысл — побочный продукт предсказания.

на основе: Mikolov et al. 2013

04~85 минскоро

Внимание (Attention)

Bahdanau-внимание: декодер учится смотреть на нужные части входа. Мост к трансформеру.

на основе: Bahdanau et al. 2014

05~120 минскоро

Трансформер — Attention Is All You Need

Полностью убираем рекуррентность. Multi-head self-attention + RoPE. Архитектура всей эпохи.

на основе: Vaswani et al. 2017 · Su et al. 2021

06~90 минскоро

BERT и предобучение

Masked-LM, двунаправленность, fine-tuning. KazRoBERTa как казахский потомок.

на основе: Devlin et al. 2018

07~95 минскоро

Масштаб: GPT-3 и in-context learning

Few-shot из ниоткуда, Chinchilla-оптимальность. Почему данные важнее размера.

на основе: Radford et al. 2019 · Brown et al. 2020 · Hoffmann et al. 2022

08~100 минскоро

Выравнивание: RLHF

SFT + RLHF (InstructGPT). Как из «предсказателя токенов» получается ассистент.

на основе: Ouyang et al. 2022

Канон

основополагающие работы · global-first

2003A Neural Probabilistic Language ModelBengio et al. · Учит распределённые векторы слов совместно с нейронной n-граммной моделью — побеждает проклятие размерности.2013Efficient Estimation of Word Representations in Vector SpaceMikolov et al. · word2vec: неглубокие сети, дающие плотные эмбеддинги, где аналогии становятся векторной арифметикой.2014Sequence to Sequence Learning with Neural NetworksSutskever et al. · LSTM-энкодер сжимает вход в вектор; второй LSTM декодирует выход.2014Neural Machine Translation by Jointly Learning to Align and TranslateBahdanau et al. · Мягкое внимание: декодер учится фокусироваться на нужных состояниях энкодера на каждом шаге.2015Neural Machine Translation of Rare Words with Subword UnitsSennrich et al. · Byte-Pair Encoding дробит слова на сабворды → открытый словарь, без <UNK>.2017Attention Is All You NeedVaswani et al. · Полностью отказываемся от рекуррентности — многоголовое self-attention и есть вся архитектура. Трансформер.2018BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al. · Masked-LM предобучение двунаправленного трансформера, затем дообучение под любую задачу.2019Language Models are Unsupervised Multitask LearnersRadford et al. · GPT-2: большая авторегрессионная LM осваивает задачи без какого-либо обучения под задачу.2020Language Models are Few-Shot LearnersBrown et al. · GPT-3 (175B): один лишь масштаб открывает few-shot обучение в контексте.2022Training Compute-Optimal Large Language ModelsHoffmann et al. · Chinchilla: большинство LLM недообучены — масштабируй токены вместе с параметрами.2022Training language models to follow instructions with human feedbackOuyang et al. · InstructGPT: SFT + RLHF (PPO) выравнивает базовую модель с намерениями человека.2023LLaMA: Open and Efficient Foundation Language ModelsTouvron et al. · Открытые модели 7B–65B уровня GPT-3 за счёт более долгого обучения на большем числе токенов.2021RoFormer: Enhanced Transformer with Rotary Position EmbeddingSu et al. · RoPE кодирует позицию вращением Q/K — относительная позиция даром.