Blog Algar Tech › Tendências e inovações

Case Data Lake da Algar Tech: automatizando a ingestão de bases de dados relacionais com AWS

Algar Tech
Artigo por
Algar Tech
Publicado em
26/06/20

Uma das principais missões do time de engenharia de dados na Algar Tech é democratizar o acesso aos dados da organização, suportando o processo de tomada de decisão e possibilitando a evolução e desenvolvimento de novos produtos utilizando dados.

Em 2018 iniciamos o desenvolvimento de um data lake – repositório central para dados estruturados, semiestruturados e não estruturados, mantidos no seu formato natural – na nuvem, utilizando o serviço de armazenamento Amazon Simple Storage Service (S3).

Um dos principais desafios nessa jornada era conseguir acelerar o processo de ingestão de novas fontes de dados, além de diminuir o esforço do time de engenharia e, ao mesmo tempo  garantir a qualidade dos processos de coleta e a correta manutenção do catálogo – componente importante na plataforma de dados, responsável por manter metadados de objetos e de negócio.   

Busca por elasticidade, flexibilidade e previsibilidade de gastos

Historicamente a maior parte das soluções de dados utilizadas na empresa operava ferramentas proprietárias, de alto custo e instaladas no ambiente on-premises, gerando lock-in e dificultando a expansão das capacidades de armazenamento e processamento. 

A evolução de soluções de código aberto, associada à facilidade de utilizá-las no ambiente de nuvem, nos motivou também a iniciar um processo de substituição das soluções de ETL, Data Warehouse e Analytics.

Solução: Automatização do pipeline de ingestão

A maior parte das fontes de dados inicialmente mapeadas era composta por bancos de dados relacionais de soluções corporativas e plataformas utilizadas pelas operações de gestão de relacionamento com cliente e gestão de ambiente de tecnologia. 

Por esse motivo a ferramenta utilizada no pipeline de extração foi Apache Sqoop ferramenta de código aberto projetada para realizar de maneira eficiente movimentações de grandes volumes de dados entre bases de dados estruturadas e o Apache Hadoop

A utilização de clusters transientes no AWS EMR possibilitou a execução dos jobs de importação do Apache Sqoop em um ambiente escalável, gerenciado, confiável e seguro, pagando somente pelo tempo de processamento.

A orquestração dos jobs de ingestão fica a cargo de funções executadas no Amazon Lambda, eliminando a necessidade de provisionamento ou gerenciamento da infraestrutura. Os metadados dos jobs, dos objetos e de negócio são mantidos em tabelas no Amazon DynamoDB e são recuperados em tempo de execução para construção das instruções de importação do Apache Sqoop através de APIs privadas provisionadas através do Amazon API Gateway.

As métricas e os logs dos processo de ingestão são coletados e mantidos no Amazon CloudWatch, possibilitando o acompanhamento e a geração de alertas enviados para o time responsável pelos processos através do Amazon Simple Notification Service.

Resultado Data Lake com AWS

Toda a infraestrutura foi modelada e implementada através do AWS CloudFormation, simplificando o processo de deploy da solução e replicação entre ambientes.

Por meio dessa solução foi possível eliminar a necessidade de desenvolvimento para ingerir novas fontes de dados no data lake e o time de engenharia de dados consegue focar seus esforços em desenvolver outras soluções que agregam valor aos negócios da Algar Tech e de seus clientes.

Quer saber mais sobre estratégias inteligentes da Algar Tech para a gestão de dados da sua organização? Fale com um dos nossos especialistas, nosso time está preparado para entender a maturidade e a necessidade da sua empresa e apresentar a solução que melhor performa para ela.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Leia também

Artigos

No mundo corporativo atual, poucas indústrias são tão centradas no...

Artigos

O feedback do cliente é uma das ferramentas mais valiosas...

Artigos

No mundo corporativo, o Customer Experience (CX) vem ganhando relevância...

1
Solução
2
Sobre você
3
Sobre a empresa
Por favor, selecione uma das opções.
Insira seu nome completo.
Insira seu e-mail corporativo.
Seu telefone corporativo. Utilize apenas números.
Seu telefone celular. Utilize apenas números.
Por favor, preencha todos os campos do formulário.