As diferenças entre Data Lake e Data Warehouse

03/05/2021 | News

Data Lake e Data Warehouse são tipos de armazenamento de dados úteis para a infraestrutura de organizações dinâmicas e competitivas. Duas possibilidades com prós e contras a serem avaliados segundo as necessidades das empresas.

A expansão do mundo do Big Data originou variadas formas de armazenamento, tais como o Data Lake e o Data Warehouse. Com funções parecidas e, às vezes, confundidas, ambos hospedam dados corporativos para análise e relatórios de negócios, porém com diferentes sistemas de geração e padrões de acesso.

Data Lake é um depósito de dados – estruturados, não estruturados e híbridos – num só lugar, com qualidade limitada, mas que fornece base para a geração de relatórios, visualização e análise avançada. Seus dados não se prendem a objetivos predefinidos (schema-on-read), o que significa que podem ser armazenados sem limpeza, tratamento ou organização, ou seja, em seu estado bruto. Por armazenar dados a um baixo custo e de modo escalável e por coletar, importar e processar dados de infraestruturas analíticas já utilizadas, pode passar por upgrades sucessivos, conforme aumentam os dados, sem que haja uma desatualização a curto prazo. Não há restrições para a ferramenta, daí seu nome, um “lago”, que abriga informações num único local: o Big Data. Suas maiores vantagens são: abrigar qualquer tipo de dado; ter flexibilidade; democratizar o acesso; armazenar grandes quantidades de dados e algoritmos.

Data Warehouse é um depósito central de dados integrados e estruturados, de duas ou mais fontes, usado principalmente para relatórios e análises e tido como principal componente da inteligência de negócios (business intelligence). Ele implementa padrões analíticos predefinidos e distribuídos para um grande número de usuários na empresa. Sua característica é possuir um “schema”, com dados limpos, tratados e organizados que funciona como um estoque a ser consultado periodicamente, com informações bem localizadas e facilmente acessadas, sobre clientes e fornecedores, mas que tendem a ficar desatualizadas a curto prazo. Armazenar volumes de dados num Data Warehouse é complexo e custoso pelo fato de, antes da coleta, ser preciso prepará-los, transformá-los e estruturá-los. Seus maiores benefícios são: integrar diferentes fontes em uma visão única, armazenar dados higienizados, favorecer insights e permitir análise de históricos.

De acordo com o Gartner, Inc., uma certa “moda” em relação ao Data Lake está gerando certa confusão na área de gestão e é preciso compreender como ele opera e como se obtém valor a partir dele. O fato de os dados estarem no “lago”, acessíveis a todos da organização não pressupõe que todos sejam qualificados para sua manipulação e análise. É preciso um controle empresarial de gestão. Muitos veem o Data Lake e o Data Warehouse como opções intercambiáveis, mas, na verdade, cada um tem uma finalidade primária diferente. Quando combinados, suportam cargas de trabalho complexas, diversificadas e distribuídas. Não se trata de saber qual o melhor, mas qual a melhor opção para determinada empresa. E a escolha depende de variáveis como o porte da empresa, as limitações e os objetivos dos projetos de Big Data. Apesar das diferenças técnicas, conceituais e de finalidade, as ferramentas são complementares e, quando trabalham de modo integrado, geram uma boa relação custo-benefício e proporcionam às organizações otimização de processos e de tempo.

https://www.talend.com/resources/data-lake-vs-data-warehouse/

https://planin.com/cuidado-com-a-ilusao-do-data-lake-aconselha-o-gartner/

http://datascienceacademy.com.br/blog/como-diferenciar-data-hub-data-lake-e-data-warehouse/

http://www.gartner.com/document/2805917.

Fale com nossa equipe

+55 11 4178-8811

sphere@sphereit.com.br

Endereço: Rua José Versolato, 111 - 18º Andar – São Bernardo do Campo

Fale com nossa equipe

+55 11 4178-8811

sphere@sphereit.com.br

Endereço: Rua José Versolato, 111 - 18º Andar – São Bernardo do Campo

pt_BR