#вести_с_полей / rzv Data Engineering / Telegram Center

#вести_с_полей Специализации в Data Engineering'e или что можно встретить в вакансиях 1/3 Вижу три роли, в которых можно развиваться в DE, не переходя в смежные роли вроде MLE или DataOps. В маленьких командах один человек может совмещать несколько, но при масштабировании компании обычно эти роли разделяют. 🔸 Собственно дата инженер (ETL Developer + Big Data) Отвечает за загрузку источников в сырой слой хранилища. Работает с различными системами, например может требоваться опыт работы с Kafka, API, S3, SFTP, ODBC/JDBC, HDFS коннекторами. Приёмник -- одна-две системы, обычно Data Lake или Raw слой OLAP базы (н. Greenplum). Основной инструмент -- ETL, обычно Spark, Flink и подобные. Оркестратор -- Airflow (в СНГ почти не видел конкурентов). Хорошая практика -- использовать data contracts через schema registry, потенциально с автоматизированной schema evolution. Типичные задачи -- протянуть новое поле из источника, подключить новый источник, починить интеграцию после изменений на источнике, ускорить загрузку каких-то сущностей. Много пишет на Python и/или Scala, подключается по SSH к ВМ и заходит в контейнеры, много работает с Linux и его файловой системой. В бизнес-правила почти не погружается, цель -- перенести данные без потерь и простоев "как есть", максимум применяя `` hard rules ``.

https://t.center/rzv_de/213

1.3K viewsJul 5, 2024 at 09:42

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily