← Атлас
Атлас · Уроки

Собрать LLM с нуля

Интерактивный курс по тому, как на самом деле устроена языковая модель — от биграммы в браузере до трансформера. Учим на мировых основополагающих работах, затем привязываем каждый слой к тому, где стоит казахский.

global-firstмировой канонKazakh-secondсвязь с деревом вклада
01~75 минурок
Что такое языковая модель?
Забудь про GPT-4 на минуту. Каждая LM, что когда-либо существовала, делает одно: P(следующий токен | прошлые). Биграмма в браузере, токенизация, эмбеддинги, тепловая карта.
на основе: Bengio et al. 2003 · Mikolov et al. 2013 · Sennrich et al. 2015
02~90 минскоро
От счётчиков к нейронам (MLP)
Заменяем таблицу биграмм на маленькую нейросеть. Та же задача, умнее представление.
на основе: Bengio et al. 2003
03~80 минскоро
Эмбеддинги: смысл из контекста
word2vec и почему «king − man + woman ≈ queen». Смысл — побочный продукт предсказания.
на основе: Mikolov et al. 2013
04~85 минскоро
Внимание (Attention)
Bahdanau-внимание: декодер учится смотреть на нужные части входа. Мост к трансформеру.
на основе: Bahdanau et al. 2014
05~120 минскоро
Трансформер — Attention Is All You Need
Полностью убираем рекуррентность. Multi-head self-attention + RoPE. Архитектура всей эпохи.
на основе: Vaswani et al. 2017 · Su et al. 2021
06~90 минскоро
BERT и предобучение
Masked-LM, двунаправленность, fine-tuning. KazRoBERTa как казахский потомок.
на основе: Devlin et al. 2018
07~95 минскоро
Масштаб: GPT-3 и in-context learning
Few-shot из ниоткуда, Chinchilla-оптимальность. Почему данные важнее размера.
на основе: Radford et al. 2019 · Brown et al. 2020 · Hoffmann et al. 2022
08~100 минскоро
Выравнивание: RLHF
SFT + RLHF (InstructGPT). Как из «предсказателя токенов» получается ассистент.
на основе: Ouyang et al. 2022

Канон

основополагающие работы · global-first
2003A Neural Probabilistic Language ModelBengio et al. · Учит распределённые векторы слов совместно с нейронной n-граммной моделью — побеждает проклятие размерности.2013Efficient Estimation of Word Representations in Vector SpaceMikolov et al. · word2vec: неглубокие сети, дающие плотные эмбеддинги, где аналогии становятся векторной арифметикой.2014Sequence to Sequence Learning with Neural NetworksSutskever et al. · LSTM-энкодер сжимает вход в вектор; второй LSTM декодирует выход.2014Neural Machine Translation by Jointly Learning to Align and TranslateBahdanau et al. · Мягкое внимание: декодер учится фокусироваться на нужных состояниях энкодера на каждом шаге.2015Neural Machine Translation of Rare Words with Subword UnitsSennrich et al. · Byte-Pair Encoding дробит слова на сабворды → открытый словарь, без <UNK>.2017Attention Is All You NeedVaswani et al. · Полностью отказываемся от рекуррентности — многоголовое self-attention и есть вся архитектура. Трансформер.2018BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al. · Masked-LM предобучение двунаправленного трансформера, затем дообучение под любую задачу.2019Language Models are Unsupervised Multitask LearnersRadford et al. · GPT-2: большая авторегрессионная LM осваивает задачи без какого-либо обучения под задачу.2020Language Models are Few-Shot LearnersBrown et al. · GPT-3 (175B): один лишь масштаб открывает few-shot обучение в контексте.2022Training Compute-Optimal Large Language ModelsHoffmann et al. · Chinchilla: большинство LLM недообучены — масштабируй токены вместе с параметрами.2022Training language models to follow instructions with human feedbackOuyang et al. · InstructGPT: SFT + RLHF (PPO) выравнивает базовую модель с намерениями человека.2023LLaMA: Open and Efficient Foundation Language ModelsTouvron et al. · Открытые модели 7B–65B уровня GPT-3 за счёт более долгого обучения на большем числе токенов.2021RoFormer: Enhanced Transformer with Rotary Position EmbeddingSu et al. · RoPE кодирует позицию вращением Q/K — относительная позиция даром.