Описание вакансии
В 4GIC мы строим инфраструктуру данных, на которой базируются наши AI-решения — от рекомендательных систем до предиктивной аналитики. Мы ищем Senior Data Engineer, готового проектировать, развёртывать и оптимизировать масштабируемые ETL‑конвейеры и хранилища данных для тысяч пользователей.
В этой роли вы будете отвечать за сбор, хранение и обработку терабайтов данных из разных источников, а также за обеспечение их доступности и качества для Data Scientists, аналитиков и бизнес‑пользователей. Ваши решения будут ключом к созданию эффективных ML-моделей и BI-дэшбордов.
Почему эта роль для вас:
- Big Data масштабы: работа с Apache Spark, Kafka, Hadoop и облачными хранилищами данных.
- End-to-End Ownership: от инжеста данных до оптимизации запросов и обеспечения безопасности.
- Инновации и автоматизация: внедрение DataOps-практик, CI/CD для ETL, infrastructure as code.
- Командная синергия: тесное взаимодействие с Data Science, ML Engineering и DevOps.
- Профессиональный рост: budget на сертификации (Databricks, GCP Professional Data Engineer), участие в профильных конференциях.
Если вы хотите строить надёжные конвейеры данных и видеть, как они влияют на бизнес‑решения клиентов по всему миру — 4GIC ждёт вас!
Задачи
- Проектирование ETL/ELT конвейеров: создание data pipelines для потоковой и пакетной обработки.
- Оркестрация workflow: настройка и поддержка DAG в Airflow или Prefect.
- Интеграция источников данных: подключение баз данных (SQL/NoSQL), API, файловых хранилищ и стриминговых платформ.
- Оптимизация производительности: тюнинг Spark‑job’ов, настройка partitioning, caching и indexing.
- Data Lake / Data Warehouse: проектирование схемы хранения в Delta Lake, BigQuery, Redshift или Snowflake.
- Quality & Governance: внедрение тестирования данных (Great Expectations), управление метаданными и соблюдение GDPR.
- Автоматизация и мониторинг: CI/CD для ETL, мониторинг задач (Prometheus, Grafana) и алертинг.
Должностные обязанности
- Разрабатывать и поддерживать масштабируемые data pipelines.
- Управлять orchestrator‑системами и отслеживать статус задач.
- Оптимизировать хранение и обработку больших объёмов данных.
- Обеспечивать качество данных и докуме\нтировать схемы и процессы.
- Сотрудничать с командами BI и Data Science для обеспечения их потребностей.
- Проводить ревью кода, менторить Junior Data Engineers.
Требования к кандидату
Опыт и образование:
- Высшее образование в области компьютерных наук, информационных систем или смежных.
- Опыт работы Data Engineer от 3 лет в Big Data проектах.
Технические навыки:
- Apache Spark, Hadoop, Kafka.
- SQL (PostgreSQL), NoSQL (MongoDB, Cassandra).
- Облачные хранилища: AWS S3, Google Cloud Storage.
- Data Warehouse: BigQuery, Redshift, Snowflake.
- Оркестрация: Airflow, Prefect.
- Языки: Python, Scala или Java.
- CI/CD: Jenkins, GitLab CI, Terraform.
- Инструменты тестирования данных: Great Expectations.
Soft Skills:
- Системное мышление и навыки решения проблем.
- Эффективная коммуникация и работа в кросс-функциональных командах.
- Проактивность, ответственность и внимание к качеству.
Условия работы
- Формат: гибрид (2–3 дня в офисе) или удалёнка.
- Зарплата: 220 000–360 000 ₽ на руки (в зависимости от опыта).
- Оборудование: MacBook Pro / премиальный ПК, доступ к облачным ресурсам.
- Отпуск: 28 дней, «Data Hack Days» для R&D.
Дополнительная информация
- Процесс найма: HR-скрининг → техническое интервью → практическое задание → встреча с CTO.
- Карьера: путь до Lead Data Engineer или Head of Data Engineering.
- Комьюнити: участие в DataOps и Big Data конференциях.
- Отклик: отправляйте резюме и примеры data pipelines на team@4gic.com с темой «Data Engineer».