Revenir au contenu principal

Données alternatives

Essayer Gratuitement Databricks

Que sont les données alternatives ?

Les données alternatives sont des informations collectées auprès de sources alternatives que les autres acteurs n'exploitent pas – autrement dit, des sources de données non traditionnelles. L'analyse des données alternatives peut délivrer des insights au-delà de ce que nous disent les sources habituelles de l'industrie. Toutefois, ce qu'on considère comme des données alternatives varie d'un secteur à l'autre, car tout dépend de ce que vos concurrents et vous utilisez déjà comme sources de données traditionnelles.

Types de données alternatives classiques

Certaines catégories de données sont couramment employées comme données alternatives :

  • données des communications par satellite,
  • données mobiles,
  • Données de capteurs
  • données web.

Mais il existe d'autres sources :

  • Géolocalisation (fréquentation)
  • Transactions par carte de crédit
  • Reçus par e-mail
  • Transactions en points de vente
  • Publications sur les réseaux sociaux
  • Activité de navigation
  • Reçus des conteneurs d'expédition
  • Avis sur les produits
  • Outils de suivi des prix
  • Météorologie et microclimats
  • Outils de suivi des vols et des expéditions

Types de données alternatives classiques

Au cours des dernières années, les données provenant des appareils mobiles, des satellites, des capteurs et des sites web ont considérablement augmenté. Ces énormes volumes de données structurées, semi-structurées et non structurées sont regroupés sous l'appellation générique de big data. Les données alternatives permettent d'obtenir des éclairages uniques, d'acquérir un avantage compétitif sur son marché et d'augmenter les profits. Vous pouvez combiner les données de différentes sources pour obtenir une image nette du paysage concurrentiel de l'entreprise.L'acquisition de ces données alternatives peut se faire de trois façons :

  • Acquisition de données brutes
  • Licences tierces
  • Scraping, également appelé moisson ou extraction de données web. Un scraper web est une interface de programmation d'application (API) qui extrait les données d'un site web et peut collecter des insights précis sur un sujet décisif pour réussir dans votre secteur d'activité. Les formes les plus récentes de scraping web consistent à écouter des flux de données émis par les serveurs web. Pour prendre un exemple, on utilise souvent JSON comme mécanisme de stockage pendant le transit entre le client et le serveur web.

Techniques de scraping automatisé

  • Lecture HTML : la lecture HTML se fait à l'aide de scripts Java et cible les pages HTML linéaires et imbriquées.
  • Lecture du DOM : le modèle d'objet du document, ou DOM, définit le style, la structure et le contenu des fichiers XML.
  • Agrégation verticale : les plateformes d'agrégation verticale, créées par les organisations, possèdent une grande puissance de calcul et visent des segments verticaux spécifiques.
  • XPath : le langage XML Path ou XPath est un langage de requête applicable aux documents XML.
  • Google Docs : vous pouvez utiliser les feuilles de calcul Google comme vous écririez un scraper dans un langage de programmation comme Python ou Ruby. C'est donc une bonne introduction aux fondamentaux de certains types de scrapers.
  • Reconnaissance de motifs textuels : cette technique de reconnaissance par expression rationnelle utilise une commande grep UNIX en association avec des langages de programmation courants comme Perl ou Python.

Ressources complémentaires

Retour au glossaire