Инженер данных от KARPOV.COURSES
Вы научитесь
Программа курса
На онлайн-курсе вы научитесь проектировать DWH, разрабатывать разные типы СУБД, работать с Airflow, понимать принципы хранения Big Data, использовать облако, применять программу Tableau, управлять данными и ML-моделями.
1. Проектирование DWH
Узнаете, что включает в себя верхнеуровневая архитектура Data Warehouse, научитесь проектировать детальный слой этого хранилища различными способами.
2. Реляционные и MPP СУБД
Разберётесь в устройстве и свойствах этих двух типов баз данных, сравните их возможности, сконструируете MPP и PostgreSQL БД.
3. Автоматизация ETL-процессов
Узнаете, как строить ETL-процессы, какие шаги включает в себя эта процедура, ознакомитесь с потенциалом Airflow и используете это приложение для автоматизации ETL.
4. Big Data
Выясните, как осуществляются процессы распределённого хранения и обработки Big Data, оцените способность хранилища восстанавливать и сохранять свои функции в случае ошибки, узнаете, что такое потоковая обработка данных, поймёте, как отслеживать и профилировать задания Spark.
5. Промежуточный проект
Отработаете на практике изученную теорию, воссоздадите ETL с помощью инструментов Airflow, S3, Spark и Greenplum. Двухнедельный доступ к проекту получат только участники, прошедшие модуль Big Data. В течение этого времени следующие модули не будут открываться, чтобы студенты не отвлекались от выполнения работы.
6. Облачное хранилище
Узнаете, с помощью каких приложений и облачных решений можно построить Data Lake и DWH, освоите программу Kubernetes, научитесь устанавливать и настраивать JupyterHub и Spark.
7. Визуализация данных
Выясните, какое значение для клиента имеет визуализация данных, освоите Tableau, изучите его свойства и построите дашборд, позволяющий осуществлять мониторинг DWH-платформы.
8. Big ML
Узнаете о распределённом машинном обучении, освоите Spark ML и разберёте различные тактики и методы, позволяющие обучать ML-модели на Big Data.
9. Управление моделями
Научитесь строить ML-пайплайны, управлять версиями датасетов, организовать учёт и отслеживать развитие ML-моделей с помощью специальных инструментов.
10. Управление данными
Узнаете, какими способами можно управлять данными, научитесь контролировать их качество и определять их источники.