🎓

Data Engineering Fast‑Track: Kafka → Airflow → Spark

Информационные технологии

Уроков: 26
Сложность: normal
Аудитория: Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI. ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде. Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse. Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.

Информационные технологии Платный

Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.

Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

Вы также можете задать любой вопрос по курсу в telegram @alexey_stepik

Требования:

Базовые навыки Python 3, умение читать SQL.

Опыт работы с Git/Bash и базовое понимание Docker.

Знание сетей/БД на уровне «что такое порт, таблица, индекс» — приветствуется, но не обязательно.