Você já ouviu falar do termo Data Lake? Esse conceito, criado por James Dixon (CTO da Pentaho) em meados de 2010, está cada vez mais solidificado na indústria digital, por conta dos benefícios que ele oferece às empresas. Mas, afinal, o que é Data Lake? Confira.
Índice
- Data Lakes são repositórios de dados
- Por que o nome Data Lake?
- Vantagens de um Data Lake
- É preciso evitar que o Data Lake se torne um Data Swamp
Data Lakes são repositórios de dados
Um repositório é definido como um ambiente de armazenamento. Logo, entende-se que Data Lakes é um local específico para armazenar os dados.
Nos Data Lakes, são depositados os dados de forma bruta, sem alterações e análises específicas sobre os mesmos. Tudo o que chega à organização fica no Data Lake em sua forma original, para que uma eventual análise de dados possa acontecer posteriormente.
Por que o nome Data Lake?
A tradução literal de Data Lake seria “lago de dados”. Lagos são reservatórios que podem conter muito volume de água, por seu tamanho e sua profundidade; por conta disso, a qualidade da água e os tipos de elementos presentes são imensuráveis e, muitas vezes, de origens inconclusivas.
Nos lagos, para descobrir certamente o que está presente e qual a qualidade dos elementos, é necessário fazer uma boa mineração. Com o Data Lake, ocorre a mesma situação: é possível armazenar inúmeros dados e informações, todos de forma bruta, havendo a necessidade de uma consultoria de dados posterior para determinar a qualidade e a validade.
Vantagens de um Data Lake
Muitas organizações, principalmente as empresas Great Place to Work, já empregam o conceito do Data Lake em suas rotinas de trabalho. Afinal, há muitas vantagens através da utilização desses sistemas de armazenamento. Veja alguns exemplos:
Armazenamento de diferentes fontes de dados
Em alguns lagos, a água presente pode ser proveniente de muitas origens, como citado acima. No Data Lake, acontece a mesma coisa, já que esses sistemas de armazenamento de dados podem receber informações de diversas fontes, sejam de dados internos, aplicativos, dispositivos externos, clientes ou de um parceiro Google, por exemplo.
Armazenamento de diferentes tipos de dados
Além da diversidade de fontes, é possível armazenar dados das mais variadas categorias, sem a necessidade de organizar o item pelo tipo da informação. Em um Data Lake, podem ser armazenados dados do Google e de outros navegadores, arquivos de diversos tamanhos e formatos e qualquer tipo de material digital.


Flexibilidade e Produtividade
Como citado anteriormente, quando os dados chegam na corporação, havendo a implementação do Data Lake, não é preciso fazer uma análise prévia e nem categorizar cada uma das informações. Essa prática economiza muito mais tempo dos colaboradores e otimiza a produtividade.
Custos
Como se dispensa a necessidade de estruturação e transformação dos dados para o seu armazenamento, imagina-se que o processo inteiro acaba sendo muito mais barato, não é mesmo? É exatamente isso que acontece. Inclusive, esse é um dos maiores motivos que fazem com que as corporações comecem a adotar a implementação desses sistemas.
É preciso evitar que o Data Lake se torne um Data Swamp
Apesar de toda essa otimização, englobar todos os dados não significa que eles podem ficar esquecidos e fora de controle. É preciso que haja manutenção e coordenação constante nesses sistemas, para que os dados possam ser sempre acessíveis quando necessário.
Ao deixar de se preocupar com a usabilidade do Data Lake, ele deixa de ser um repositório de dados e acabam se tornando um lixo eletrônico, um Data Swamp, que significa “pântano de dados”.
Conte com a Sauter Digital
Está buscando uma empresa que lhe ofereça melhores resultados e a performance ideal para ter sucesso no meio digital? Conte com a Sauter, que pode te oferecer soluções inovadoras e otimizadas para ter mais segurança e efetividade no mercado.Faça como a anyLife, a Flexdoc e o Iate Clube Brasília, alguns dos nossos cases de sucesso, nos contate e veja sua performance subir rapidamente.
FAQ
Não. Um Data Lake armazena qualquer tipo de dado, seja ele bruto, não estruturado ou semiestruturado; um Data Warehouse é feito para armazenar dados estruturados e categorizados.
A tradução literal é “lago de dados”. Portanto, assim como um lago, um Data Lake pode armazenar uma grande quantidade de dados, de diversas fontes diferentes e dos mais variados tipos, sem qualquer mineração prévia.