Datos alternativos
¿Qué son los datos alternativos?
Los datos alternativos son información recopilada mediante el uso de fuentes alternativas de datos que otros no están usando; fuentes de información no tradicionales. El análisis de datos alternativos puede proporcionar información que va más allá de la que pueden ofrecer las fuentes de datos habituales de una industria. Sin embargo, lo que se considera exactamente como datos alternativos varía de una industria a otra, ya que depende de las fuentes de datos tradicionales que tú y tu competencia ya estén usando.
Tipos de datos alternativos típicos
Cuando hablamos de datos alternativos, hay un par de tipos de datos que se emplean principalmente:
- datos satelitales,
- datos móviles
- datos del sensor
- datos web.
Sin embargo, los datos alternativos también pueden incluir:
- Geolocalización (tráfico peatonal)
- Transacciones de tarjeta de crédito
- Recibos por correo electrónico
- Transacciones en el punto de venta
- Publicaciones en redes sociales
- Actividad de navegación en línea
- Recibos de contenedores de envío
- Reseñas de productos
- Rastreadores de precios
- Clima y microclimas
- Rastreadores de vuelos y envíos
En los últimos años, el aumento de los datos procedentes de dispositivos móviles, satélites, sensores y sitios web dio lugar a grandes cantidades de datos estructurados, semiestructurados y no estructurados, a los que nos referimos bajo el término genérico de big data. El uso de datos alternativos permite obtener insights únicos, una ventaja competitiva en la industria y mayores ganancias. Puedes combinar conjuntos de datos de diferentes fuentes para obtener una visión general clara de los panoramas de mercado competitivos específicos de la empresa. Hay tres formas principales que se pueden usar para acceder a datos alternativos:
- Adquisición de datos sin procesar
- Licencias de terceros
- Raspado web (o recolección web, o extracción de datos web). Un raspador web es una interfaz de programación de aplicaciones (API) que extrae datos de un sitio web y es capaz de recopilar insights sobre el tema deseado necesarios para prosperar en tu industria. Las formas más nuevas de raspado web implican la escucha de feeds de datos de servidores web. Por ejemplo, JSON se utiliza comúnmente como un mecanismo de transporte y almacenamiento entre el cliente y el servidor web.
Técnicas de raspado automatizadas
- Análisis de HTML: el análisis de HTML se realiza mediante scripts Java y se dirige a páginas HTML lineales o anidadas.
- Análisis del DOM: el modelo de objetos del documento, o DOM, define el estilo, la estructura y el contenido de los archivos XML.
- Agregación vertical: las plataformas de agregación vertical son creadas por organizaciones que cuentan con una enorme potencia informática y que están dirigidas a verticales específicas.
- XPath: XML Path Language o XPath es un lenguaje de consulta que se puede usar en documentos XML.
- Documentos de Google: Las hojas de cálculo de Google se pueden usar más o menos de la misma manera que si estuvieras escribiendo un raspador en un lenguaje de programación como Python o Ruby, por lo tanto, es una buena y rápida manera de introducir los conceptos básicos de ciertos tipos de raspadores.
- Coincidencia de patrones de texto: esta es una técnica de coincidencia de expresiones regulares que emplea el comando grep de UNIX y se combina con lenguajes de programación populares como Perl o Python.