Ir para o conteúdo principal

Dados alternativos

Experimente o Databricks gratuitamente

O que são dados alternativos?

Dados alternativos são informações coletadas usando fontes alternativas de dados que outros não estão usando;  fontes de informações não tradicionais. A análise de dados alternativos pode fornecer percepções além daquelas que as fontes de dados convencionais do setor são capazes de fornecer. No entanto, a definição exata de dados alternativos varia de um setor para outro, pois depende das fontes de dados tradicionais que você e seus concorrentes já estão usando.

Tipos de dados alternativos típicos

Quando falamos de dados alternativos, alguns tipos são mais comuns:

  • Dados de satélite
  • Dados móveis
  • Dados de sensores
  • Dados da web

No entanto, os dados alternativos também podem incluir:

  • Geolocalização (tráfego de pedestres)
  • Transações com cartão de crédito
  • Recibos por e-mail
  • Transações de ponto de venda
  • Publicações em redes sociais
  • Atividade de navegação online
  • Recibos de contêineres de remessa
  • Avaliações de produtos
  • Rastreadores de preços
  • Tempo e microclimas
  • Rastreadores aéreos e marítimos

Tipos de dados alternativos típicos

Nos últimos anos, o aumento dos dados provenientes de dispositivos móveis, satélites, sensores e sites levou a grandes quantidades de dados estruturados, semiestruturados e não estruturados, que são referidos sob o termo genérico de big data. O uso de dados alternativos permite obter percepções exclusivas, vantagem competitiva no setor e aumento nos lucros.  É possível combinar conjuntos de dados de diferentes fontes para obter uma visão geral clara das estruturas de mercado competitivas e específicas da empresa. Existem três formas principais para acessar dados alternativos:

  • Aquisição de dados brutos
  • Licenciamento de terceiros
  • Web scraping (ou web harvesting ou extração de dados da web). Web scraper é uma interface de programação de aplicativos (API) que extrai dados de um site e é capaz de reunir insights importantes sobre o tópico desejado necessário para ter sucesso em determinado setor. As formas mais recentes de extração de dados da web envolvem ouvir feeds de dados de servidores web. Por exemplo, JSON é comumente usado como um mecanismo de armazenamento de transporte entre o cliente e o servidor da web.

Técnicas de extração automatizada

  • Análise de HTML: a análise de HTML é feita usando scripts Java e tem como alvo páginas HTML lineares ou aninhadas.
  • Análise de DOM: o Modelo de Documento por Objetos (DOM) define o estilo, a estrutura e o conteúdo contidos nos arquivos XML.
  • Agregação vertical: as plataformas de agregação vertical são criadas por organizações com um enorme poder de computação que têm por objetivo verticais específicos.
  • XPath: XML Path Language (XPath) é uma linguagem de query que pode ser usada em documentos XML.
  • Google Docs: as planilhas do Google podem ser usadas como se você estivesse escrevendo um extrator em uma linguagem de programação como Python ou Ruby. Como resultado, é uma boa e rápida maneira de introduzir o básico de determinados tipos de extratores.
  • Correspondência de padrão de texto: técnica de correspondência de expressão regular que usa o comando UNIX grep e combina com linguagens de programação populares como Perl ou Python.

Recursos adicionais

Voltar ao glossário