🎓

Data Engineer с нуля до junior + PySpark

Информационные технологии
Обложка курса Купить за 9990 ₽
  • Уроков: 1
  • Сложность: easy
  • Аудитория: Курс будет полезен всем людям, будь то школьники, студенты, взрослые, пенсионеры, люди, желающие освоить новое направление, желающие поменять род деятельности. На данный момент направление больших данных терпит недостаток кадрового резерва, давайте исправлять это!
Информационные технологии Платный
Это набор курсов для погружения в IT направление "Большие данные" как Data Engineer. Со включенным сюда дополнительным курсом PySpark Вы изучите основы распределённых вычислений с Apache Spark, научитесь работать с RDD и DataFrame, познакомитесь с Spark SQL, оптимизацией запросов, потоковой обработкой и библиотекой машинного обучения MLlib. По окончании курса По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе.

Основная цель курсов - освоение профессии data engineer и работу с Apache Spark с нуля, без каких-либо начальных знаний. В курсах прорабатывается весь инструментарий стека (SQL, Scala, Bash, Hadoop, Linux, Python, Pandas, Airflow и GIT).  Дополнительный курс PySpark направлен на изучение всего стека технологий вокруг Spark, включая RDD, DataFrame API, Spark SQL, потоковую обработку и оптимизацию.Курс поможет Вам получить нужный багаж знаний для успешного трудоустройства на грейд (Junior). Во время прохождения курса Вам будут доступны лекционные и практические задания : 

  1. Лекционные материалы позволят Вам углубиться в тему и приобрести багаж знаний для решения практики.
  2. Практические материалы представляют из себя тесты после каждой лекции, задания на написание кода и финальное выпускное задание на выбор. Каждое задание проверяется преподавателями вручную.

Общее содержание курса Data Engineer: 

  1. Знакомство с платформой и сдача практических задач
  2. Что такое информация, данные и BigData?
  3. Теория баз данных
  4. Обустраиваем рабочее место | Docker | VB
  5. Введение в SQL
  6. Система контроля версий GIT
  7. Столбцовые (колоночные) базы данных. Введение в ClickHouse
  8. DWH - Data WareHouse
  9. NoSQL хранилища данных
  10. Озера данных
  11. Введение в Linux | Bash | cURL
  12. Распределенная файловая система HDFS
  13. Программирование на Python
  14. Алгоритмы и сортировки, big O
  15. Обработка данных с использованием движка PySpark
  16. Инструменты стека Hadoop
  17. Углубленное изучение Spark
  18. Программирование на Scala
  19. Введение в Pandas и работа с API
  20. Оркестраторы рабочих процессов при работе с большими данными
  21. Знакомство с Kafka
  22. Мониторинг витрин и приложений
  23. Инструменты командной работы
  24. Разбор основных вопросов на собеседованиях
  25. Итоговая работа

Общее содержание курса PySpark: 

  1. Введение в Spark и основы распределённых вычислений
  2. Работа с данными в PySpark: RDD
  3. Работа с данными в PySpark: DataFrame и Spark SQL
  4. Оптимизация производительности PySpark-приложений
  5. Потоковая обработка с PySpark Structured Streaming
  6. Машинное обучение с PySpark MLlib
  7. Интеграция PySpark с внешними системами
  8. Отладка и профилирование PySpark-приложений
  9. Чеклисты и шпаргалки по PySpark
  10. Продвинутые темы PySpark
  11. Финальные проекты

По окончании курса Вам будет предложено решить финальное задание на выбор, которое пойдет в Ваше портфолио и отразит все знания, полученные на курсе. На протяжении всего курса Вам будет доступен телеграмм канал с одногруппниками и преподавателями, где Вы сможете задать свой вопрос.

Желаю удачи в освоении нового, но очень интересного материала!

О новостях курса, важных обновлениях и прочих интересных вещах можно узнавать из группы в телеграмме  - https://t.me/data_stepic

Требования:
  1. Понимание простейшей математики, умение решать поставленные задачи самостоятельно.
  2. Наличие компьютера или ноутбука от 8 гб оперативной памяти и от 128 гб на жестком диске.