Data Engineer с нуля до junior + PySpark

- Уроков: 1
- Сложность: easy
- Аудитория: Курс будет полезен всем людям, будь то школьники, студенты, взрослые, пенсионеры, люди, желающие освоить новое направление, желающие поменять род деятельности. На данный момент направление больших данных терпит недостаток кадрового резерва, давайте исправлять это!
Основная цель курсов - освоение профессии data engineer и работу с Apache Spark с нуля, без каких-либо начальных знаний. В курсах прорабатывается весь инструментарий стека (SQL, Scala, Bash, Hadoop, Linux, Python, Pandas, Airflow и GIT). Дополнительный курс PySpark направлен на изучение всего стека технологий вокруг Spark, включая RDD, DataFrame API, Spark SQL, потоковую обработку и оптимизацию.Курс поможет Вам получить нужный багаж знаний для успешного трудоустройства на грейд (Junior). Во время прохождения курса Вам будут доступны лекционные и практические задания :
- Лекционные материалы позволят Вам углубиться в тему и приобрести багаж знаний для решения практики.
- Практические материалы представляют из себя тесты после каждой лекции, задания на написание кода и финальное выпускное задание на выбор. Каждое задание проверяется преподавателями вручную.
Общее содержание курса Data Engineer:
- Знакомство с платформой и сдача практических задач
- Что такое информация, данные и BigData?
- Теория баз данных
- Обустраиваем рабочее место | Docker | VB
- Введение в SQL
- Система контроля версий GIT
- Столбцовые (колоночные) базы данных. Введение в ClickHouse
- DWH - Data WareHouse
- NoSQL хранилища данных
- Озера данных
- Введение в Linux | Bash | cURL
- Распределенная файловая система HDFS
- Программирование на Python
- Алгоритмы и сортировки, big O
- Обработка данных с использованием движка PySpark
- Инструменты стека Hadoop
- Углубленное изучение Spark
- Программирование на Scala
- Введение в Pandas и работа с API
- Оркестраторы рабочих процессов при работе с большими данными
- Знакомство с Kafka
- Мониторинг витрин и приложений
- Инструменты командной работы
- Разбор основных вопросов на собеседованиях
- Итоговая работа
Общее содержание курса PySpark:
- Введение в Spark и основы распределённых вычислений
- Работа с данными в PySpark: RDD
- Работа с данными в PySpark: DataFrame и Spark SQL
- Оптимизация производительности PySpark-приложений
- Потоковая обработка с PySpark Structured Streaming
- Машинное обучение с PySpark MLlib
- Интеграция PySpark с внешними системами
- Отладка и профилирование PySpark-приложений
- Чеклисты и шпаргалки по PySpark
- Продвинутые темы PySpark
- Финальные проекты
По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе. На протяжении всего курса Вам будет доступен телеграмм канал с одногруппниками и преподавателями, где Вы сможете задать свой вопрос.
Желаю удачи в освоении нового, но очень интересного материала!
О новостях курса, важных обновлениях и прочих интересных вещах можно узнавать из группы в телеграмме - https://t.me/data_stepic
- Понимание простейшей математики, умение решать поставленные задачи самостоятельно.
- Наличие компьютера или ноутбука от 8 гб оперативной памяти и от 128 гб на жестком диске.