Engenheiro de Dados Junior - Oportunidade Híbrida SP
Responsabilidades
Ingestão de Dados: Configurar conectores para ler dados de buckets Amazon S3 ou bancos de dados relacionais (RDS).
Processamento com Spark: Escrever scripts, geralmente em Python/PySpark ou SQL, dentro de Notebooks do Databricks para limpar, filtrar e agregar dados.
Arquitetura Medallion: Organizar os dados nas camadas Bronze (dados brutos), Silver (dados limpos/filtrados) e Gold (dados prontos para negócio/BI).
Delta Lake: Garantir que as tabelas estejam no formato Delta para permitir transações ACID e versionamento de dados (Time Travel).
Otimização Básica: Executar comandos como OPTIMIZE e Z-ORDER no Databricks para garantir que as consultas não fiquem lentas e caras.
Catalogação: Utilizar o Unity Catalog (ou o AWS Glue Catalog) para documentar o que cada tabela significa e quem tem acesso a ela.