#вести_с_полей
Специализации в Data Engineering'e или что можно встретить в вакансиях 1/3
Вижу три роли, в которых можно развиваться в DE, не переходя в смежные роли вроде MLE или DataOps. В маленьких командах один человек может совмещать несколько, но при масштабировании компании обычно эти роли разделяют.
🔸 Собственно дата инженер (ETL Developer + Big Data)
Отвечает за загрузку источников в сырой слой хранилища. Работает с различными системами, например может требоваться опыт работы с Kafka, API, S3, SFTP, ODBC/JDBC, HDFS коннекторами. Приёмник -- одна-две системы, обычно Data Lake или Raw слой OLAP базы (н. Greenplum).
Основной инструмент -- ETL, обычно Spark, Flink и подобные. Оркестратор -- Airflow (в СНГ почти не видел конкурентов). Хорошая практика -- использовать data contracts через schema registry, потенциально с автоматизированной schema evolution.
Типичные задачи -- протянуть новое поле из источника, подключить новый источник, починить интеграцию после изменений на источнике, ускорить загрузку каких-то сущностей.
Много пишет на Python и/или Scala, подключается по SSH к ВМ и заходит в контейнеры, много работает с Linux и его файловой системой. В бизнес-правила почти не погружается, цель -- перенести данные без потерь и простоев "как есть", максимум применяя `` hard rules ``.