
A análise de big data é o processo, geralmente complexo, de examinar conjuntos de dados grandes e variados (big data) que foram gerados por várias fontes, como comércio eletrônico, dispositivos móveis, redes sociais e Internet das Coisas (IoT). Ela envolve a integração de diferentes fontes de dados, a transformação de dados não estruturados em dados estruturados e a geração de insights a partir dos dados usando ferramentas e técnicas especializadas que distribuem o processamento de dados por toda a rede.
A quantidade de dados digitais está crescendo rapidamente, dobrando aproximadamente a cada dois anos. A análise big data oferece uma abordagem diferente para gerenciar e analisar todas essas fontes de dados. Embora os princípios da análise de dados tradicional ainda se apliquem no geral, a escala e a complexidade da análise de big data exigiram o desenvolvimento de novas formas de armazenar e processar os petabytes de dados estruturados e não estruturados envolvidos.
A demanda por velocidades mais rápidas e maiores capacidades de armazenamento criou um vácuo tecnológico que logo foi preenchido por abordagens, incluindo:
A análise de big data usa técnicas analíticas avançadas para analisar conjuntos de dados muito grandes que incluem dados estruturados, semiestruturados e não estruturados, de várias fontes e em tamanhos diferentes, de terabytes a zettabytes.
Antes da invenção do Hadoop, as tecnologias que sustentavam sistemas modernos de armazenamento e compute eram relativamente básicas, limitando as empresas basicamente à análise de "dados pequenos". Mesmo essa forma de analítica pode ser difícil, especialmente a integração de novas fontes de dados. Com a análise de dados tradicional, que depende de bancos de dados relacionais de dados estruturados, cada byte de dados brutos precisa ser formatado de uma maneira específica antes de poder ser ingerido no banco de dados para análise. Esse processo, muitas vezes demorado, geralmente conhecido como Extrair, Transformar e Carregar (ETL), é necessário para cada nova fonte de dados. O principal problema com esse processo e abordagem de 3 partes é que é muito demorado e trabalhoso, às vezes exigindo até 18 meses para que data scientists e data engineers implementem ou façam alterações.
No entanto, uma vez que os dados estavam no banco de dados, na maioria dos casos era fácil o suficiente para os analistas de dados fazerem queries e análises. Mas então vieram a internet, o comércio eletrônico, as redes sociais, os dispositivos móveis, a automação de marketing, os dispositivos da Internet das Coisas (IoT) etc., e o tamanho, o volume e a complexidade dos dados brutos se tornaram demais para quase todas as instituições analisarem no dia a dia dos negócios.
A análise de big data ajuda as organizações a aproveitar seus dados e usar técnicas e métodos avançados de data science, como processamento de linguagem natural, deep learning e machine learning, revelando padrões ocultos, correlações desconhecidas, tendências de mercado e preferências do cliente, para identificar novas oportunidades e tomar decisões de negócios mais bem informadas.
