Опыт работы: от 5 лет коммерческого опыта в компаниях с развитой культурой работы с данными
1. Опыт работы с Apache Airflow в корпоративной среде:
o Настройка и управление пайплайнами данных.
o Опыт разработки DAG на Python для автоматизации ETL процессов.
o Оптимизация и мониторинг выполнения DAG-ов.
2. Опыт самостоятельной разработка ETL/ELT процессов на основании бизнес-требований. Понимание основных принципов решения задач трансформации данных и интеграции источников данных.
3. Понимание принципов и опыт работы с каталогами данных.
4. Навыки работы с DBT (Data Build Tool):
o Разработка и поддержка моделей данных с использованием DBT.
o Интеграция DBT в пайплайны данных для трансформации данных.
o Понимание процессов версионирования моделей данных.
5. Понимание принципов построения и работы с потоковыми данными (Kafka, Spark Streaming)
o Опыт работы с Kafka: развертывание (желательно), настройка/оптимизация/масштабирование (обязательно)
6. Опыт использования SQL при написании сложных запросов и оптимизация производительности существующих.
7. Опыт работы с реляционными базами данных (PostgreSQL, MSSQL)
8. Навыки работы с системами контроля версий (Git)
o Настройка CI/CD для дата-процессов (желательно)
• Настройка интеграций с источниками данных (автоматизацию интеграцией Заказчик планирует делать на Apache Airflow);
• Организация и поддержка работы каталога данных;
• Поддержка и помощь в работе с хранилищем данных;
• Взаимодействие с командами разработки и аналитики;