🎓

Разработка LLM с нуля

Информационные технологии

Уроков: 13
Сложность: normal
Аудитория: Курс предназначен для разработчиков, инженеров машинного обучения и исследователей, желающих глубоко разобраться в архитектуре современных языковых моделей (LLM).

Информационные технологии Платный

Этот практический курс погрузит студентов в создание современных языковых моделей (LLM) на примере GPT-архитектуры. Участники с нуля реализуют все основные компоненты Трансформера: от токенизации (BPE) до механизмов Внимания и генерации текста. Для разработки будем использовать только Python и низкоуровневый PyTorch, не полагаясь на какие-либо сторонние библиотеки.

Один из самых эффективных способов разобраться как работает тот или иной алгоритм — реализовать его самому. Этим мы и займемся в данном курсе. А реализовывать будем модель GPT-1 и все ее компоненты:

Токенизатор (BPE)
Эмбеддинги (Токенов и Позиционные)
Блок Декодера:
- Multi-Head Attention
- FeedForward-слои
- Остаточные связи
Вероятностная генерация

После чего соберем эти компоненты в единую LLM и настроим процесс обучения (Pre-train).

И все это будет реализовано на чистом Python и низкоуровневых методах библиотеки PyTorch (nn.linear, nn.dropout и пр.).

-------

Но это еще не все. В будущем будут добавлены новые модули:

Другие модели: GPT-2, Llama, Gemma, Qwen, Mistral и пр.
Другие архитектуры: Mixture of Experts.
Улучшенные версии механизма Внимания: Flash Attention, Flash Attention 2, Sparse Attention.
Эффективные механизмы: KV-cache.

Требования:

Базовые знания Python, минимальный ООП (классы, функции).
Понимание основ машинного обучения (train/test, таргет, фичи, градиент, функции потерь, метрики и т.д.).
Базовые знания по PyTorch: линейные слои, активации, нормализация, дропаут, обратное распространение ошибки.
Желателен опыт реализации простой полносвязнной сети для задачи много-классовой классификации.