Uma das principais missões do time de engenharia de dados na Algar Tech é democratizar o acesso aos dados da organização, suportando o processo de tomada de decisão e possibilitando a evolução e desenvolvimento de novos produtos utilizando dados.
Em 2018 iniciamos o desenvolvimento de um data lake – repositório central para dados estruturados, semiestruturados e não estruturados, mantidos no seu formato natural – na nuvem, utilizando o serviço de armazenamento Amazon Simple Storage Service (S3).
Um dos principais desafios nessa jornada era conseguir acelerar o processo de ingestão de novas fontes de dados, além de diminuir o esforço do time de engenharia e, ao mesmo tempo garantir a qualidade dos processos de coleta e a correta manutenção do catálogo – componente importante na plataforma de dados, responsável por manter metadados de objetos e de negócio.
Busca por elasticidade, flexibilidade e previsibilidade de gastos
Historicamente a maior parte das soluções de dados utilizadas na empresa operava ferramentas proprietárias, de alto custo e instaladas no ambiente on-premises, gerando lock-in e dificultando a expansão das capacidades de armazenamento e processamento.
A evolução de soluções de código aberto, associada à facilidade de utilizá-las no ambiente de nuvem, nos motivou também a iniciar um processo de substituição das soluções de ETL, Data Warehouse e Analytics.
Solução: Automatização do pipeline de ingestão
A maior parte das fontes de dados inicialmente mapeadas era composta por bancos de dados relacionais de soluções corporativas e plataformas utilizadas pelas operações de gestão de relacionamento com cliente e gestão de ambiente de tecnologia.
Por esse motivo a ferramenta utilizada no pipeline de extração foi Apache Sqoop – ferramenta de código aberto projetada para realizar de maneira eficiente movimentações de grandes volumes de dados entre bases de dados estruturadas e o Apache Hadoop.
A utilização de clusters transientes no AWS EMR possibilitou a execução dos jobs de importação do Apache Sqoop em um ambiente escalável, gerenciado, confiável e seguro, pagando somente pelo tempo de processamento.
A orquestração dos jobs de ingestão fica a cargo de funções executadas no Amazon Lambda, eliminando a necessidade de provisionamento ou gerenciamento da infraestrutura. Os metadados dos jobs, dos objetos e de negócio são mantidos em tabelas no Amazon DynamoDB e são recuperados em tempo de execução para construção das instruções de importação do Apache Sqoop através de APIs privadas provisionadas através do Amazon API Gateway.
As métricas e os logs dos processo de ingestão são coletados e mantidos no Amazon CloudWatch, possibilitando o acompanhamento e a geração de alertas enviados para o time responsável pelos processos através do Amazon Simple Notification Service.
Resultado Data Lake com AWS
Toda a infraestrutura foi modelada e implementada através do AWS CloudFormation, simplificando o processo de deploy da solução e replicação entre ambientes.
Por meio dessa solução foi possível eliminar a necessidade de desenvolvimento para ingerir novas fontes de dados no data lake e o time de engenharia de dados consegue focar seus esforços em desenvolver outras soluções que agregam valor aos negócios da Algar Tech e de seus clientes.
Quer saber mais sobre estratégias inteligentes da Algar Tech para a gestão de dados da sua organização? Fale com um dos nossos especialistas, nosso time está preparado para entender a maturidade e a necessidade da sua empresa e apresentar a solução que melhor performa para ela.