Blog Algar Tech › Tendências e inovações

Case Data Lake da Algar Tech: automatizando a ingestão de bases de dados relacionais com AWS

Artigo por
Algar Tech

Publicado em
26/06/20

Uma das principais missões do time de engenharia de dados na Algar Tech é democratizar o acesso aos dados da organização, suportando o processo de tomada de decisão e possibilitando a evolução e desenvolvimento de novos produtos utilizando dados.

Em 2018 iniciamos o desenvolvimento de um data lake – repositório central para dados estruturados, semiestruturados e não estruturados, mantidos no seu formato natural – na nuvem, utilizando o serviço de armazenamento Amazon Simple Storage Service (S3).

Um dos principais desafios nessa jornada era conseguir acelerar o processo de ingestão de novas fontes de dados, além de diminuir o esforço do time de engenharia e, ao mesmo tempo garantir a qualidade dos processos de coleta e a correta manutenção do catálogo – componente importante na plataforma de dados, responsável por manter metadados de objetos e de negócio.

Busca por elasticidade, flexibilidade e previsibilidade de gastos

Historicamente a maior parte das soluções de dados utilizadas na empresa operava ferramentas proprietárias, de alto custo e instaladas no ambiente on-premises, gerando lock-in e dificultando a expansão das capacidades de armazenamento e processamento.

A evolução de soluções de código aberto, associada à facilidade de utilizá-las no ambiente de nuvem, nos motivou também a iniciar um processo de substituição das soluções de ETL, Data Warehouse e Analytics.

Solução: Automatização do pipeline de ingestão

A maior parte das fontes de dados inicialmente mapeadas era composta por bancos de dados relacionais de soluções corporativas e plataformas utilizadas pelas operações de gestão de relacionamento com cliente e gestão de ambiente de tecnologia.

Por esse motivo a ferramenta utilizada no pipeline de extração foi Apache Sqoop – ferramenta de código aberto projetada para realizar de maneira eficiente movimentações de grandes volumes de dados entre bases de dados estruturadas e o Apache Hadoop.

A utilização de clusters transientes no AWS EMR possibilitou a execução dos jobs de importação do Apache Sqoop em um ambiente escalável, gerenciado, confiável e seguro, pagando somente pelo tempo de processamento.

A orquestração dos jobs de ingestão fica a cargo de funções executadas no Amazon Lambda, eliminando a necessidade de provisionamento ou gerenciamento da infraestrutura. Os metadados dos jobs, dos objetos e de negócio são mantidos em tabelas no Amazon DynamoDB e são recuperados em tempo de execução para construção das instruções de importação do Apache Sqoop através de APIs privadas provisionadas através do Amazon API Gateway.

As métricas e os logs dos processo de ingestão são coletados e mantidos no Amazon CloudWatch, possibilitando o acompanhamento e a geração de alertas enviados para o time responsável pelos processos através do Amazon Simple Notification Service.

Resultado Data Lake com AWS

Toda a infraestrutura foi modelada e implementada através do AWS CloudFormation, simplificando o processo de deploy da solução e replicação entre ambientes.

Por meio dessa solução foi possível eliminar a necessidade de desenvolvimento para ingerir novas fontes de dados no data lake e o time de engenharia de dados consegue focar seus esforços em desenvolver outras soluções que agregam valor aos negócios da Algar Tech e de seus clientes.

Quer saber mais sobre estratégias inteligentes da Algar Tech para a gestão de dados da sua organização? Fale com um dos nossos especialistas, nosso time está preparado para entender a maturidade e a necessidade da sua empresa e apresentar a solução que melhor performa para ela.

Assine nossa Newsletter

Saiba tudo o que acontece no mundo Tech

Ao enviar este formulário, você concorda com a coleta de seus dados pessoais de acordo com nossa Política de Privacidade.

Atendimento

Backoffice

Cobrança

Vendas e retenção

Case Data Lake da Algar Tech: automatizando a ingestão de bases de dados relacionais com AWS

Busca por elasticidade, flexibilidade e previsibilidade de gastos

Solução: Automatização do pipeline de ingestão

Resultado Data Lake com AWS

Saiba tudo o que acontece no mundo Tech

Deixe um comentário Cancelar resposta

Não é ser inteligência artificial ou ser humano: é um mais o outro

Feedback do cliente: saber ouvir faz toda a diferença

Como conectar o CX aos resultados financeiros da empresa?

Receba nossa newsletter

Siga a gente nas redes sociais

Atendimento

Backoffice

Cobrança

Vendas e retenção