Data-инженер от Слёрма
Вы научитесь
Программа курса
3-месячный онлайн-курс по Data-инженерии даст вам самые актуальные знания и навыки по работе с большими данными. Уроки проходят в формате живых вебинаров, которые сопровождаются практическими заданиями и их ревью. В конце обучения вы подготовите итоговый проект на собственных данных.
Python и терминал для задач Data Engineering
Начнете обучение на курсе по Data-инженерингу с изучения вопроса применимости языка Python под рабочие задачи специалиста по большим данным. Познакомитесь с терминалом задач.
Распределенные файловые системы. Hadoop. Map-Reduce
Изучите классические подходы, решающие задачи распределённого вычисления. Также ознакомитесь с функционалом hdfs, Hadoop и Map-Reduce. В качестве практики научитесь решать простые задачи с помощью этого метода.
Spark for Data Engineering
В центре внимания этого урока будет Spark. Вы сможете настроить инструмент под учебные, а также будущие рабочие задачи. В качестве практического задания получите задачки на знание Spark.
Реляционные базы данных
Познакомитесь с важным инструментом в арсенале Data-инженера. Узнаете, каким образом строится работа по организации значений в реляционных базах данных. На практическом занятии изучите принципы работы при помощи SQL.
NOSQL базы данных и введение в методологии построения хранилищ
Узнаете, каким образом отличаются базы данных, на примере NoSQL и других вариантов. Сможете оценивать, какую выбрать для решения подходящих задач. Также разберетесь в способах построения хранилищ.
Процессинг и перекладывание (перекладка) данных
Поймете, как происходит процессинг и перекладывание данных. Сравните ETL и ELT и найдете отличия. На примерах разберетесь с последствиями для инфраструктуры при выборе определенного подхода. Спикеры поделятся с вами составленным списком критериев, который помогает при принятии решения о перекладке данных.
Оркестраторы данных. AirFlow
Узнаете, что такое оркестраторы данных. Научитесь работать с Apache AirFlow и поймете, какие примущества у него есть. В качестве практической задачи попробуете его конфигурировать.
Шины данных. Kafka. Принципы построения систем потоковой аналитики
Перейдете к изучению полезного инструмента под названием Kafka. Разберетесь, как его настраивать в зависимости от типа задач (батчинг или стриминг). Узнаете, что такое шины данных.
ETL-инструменты. NiFi
Поближе рассмотрите ETL-инструменты. Узнаете, как их использовать для преобразования данных, в том числе произвольных. Зададите интересующие вас вопросы спикеру и выполните практическое задание по теме.
Архитектура хранилищ данных
Модуль посвящен методам проектирования и архитектуры хранилищ. Вы узнаете, какие проблемы и ошибки возникают чаще всего и как от них эффективнее всего избавиться.
Аналитика. Жизненный цикл данных и оценка data quality
Получите необходимый для инженера Big Data навык аналитики процессов и данных. Научитесь производить оценку data quality и предоставлять заказчику информацию о проделанной работе так, чтобы вас поняли.
Работа с собственным проектом в финальном модуле
В конце обучения вы сможете создать собственный проект на учебных или ваших данных. Вы сможете доказать спикерам, а главное себе, что отлично освоили изученный материал и готовы к реальной работе Data-инженером.