SRE: data-driven подход к управлению надежностью систем от Слёрма
Вы научитесь
Программа курса
Вы будете самостоятельно осваивать теоретический материал и выполнять практические задания в командах и под присмотром наставников. У вас также будут встречи со спикерами курса. Они ответят на любые вопросы.
1 день: установочная AMA-сессия
Определите цели и задачи практикума. Узнаете, что такое SRE. Разделитесь на команды. Изучите теорию мониторинга и Site Reliability Engineering.
2 день: разбор практик и кейсов
Создадите простой дашборд, добавите SLO/SLI и настроите алёрты. Узнаете, как качественно настроить свой сервис в условиях, когда соседний сервис неработоспособен.
3 день: AMA-сессия, ответы на вопросы
Узнаете про upstream и распространённые проблемы с архитектурой. Научитесь управлять инцидентами. Усвоите правила работы пожарной бригады. Поймёте, как работать с постмортемами.
4 день: разбор практик и кейсов
Рассмотрите вопрос согласования метрик. Научитесь предупреждать возникновение проблем с базами данных. Напишите свой post mortem.
5 день: AMA-сессия, ответы на вопросы
Узнаете, как компании внедряют в свои системы SRE. Разберёте различные способы осуществления деплоймента. Поймёте, как настроить сервис так, чтобы его можно было взять на поддержку.
6 день: разбор практик и кейсов
Научитесь создавать качественный Healthcheck. Сможете обнаружить сбоящий сервис и перекрыть трафик к нему. Подведёте итоги всего курса.