Que sont les données alternatives ?

Des sources de données non traditionnelles, au-delà des données financières classiques (imagerie satellite, transactions par carte de crédit, réseaux sociaux et trafic web), pour obtenir des informations commerciales.

par Équipe Databricks

Inclut des données non conventionnelles telles que les signaux de géolocalisation, les téléchargements d'applications, le web scraping, les données d'expédition, les tendances météorologiques et les avis des employés provenant de sites d'évaluation d'emploi.
Offre aux fonds spéculatifs et aux investisseurs quantitatifs un avantage informationnel en révélant les tendances du marché avant que les états financiers et les indicateurs traditionnels ne reflètent les changements.
Nécessite un traitement spécialisé pour les formats non structurés, la prise en compte des enjeux éthiques et de confidentialité, ainsi que des techniques avancées d'analyse de données pour extraire des signaux significatifs à partir d'ensembles de données multidimensionnels et bruités.

Que sont les données alternatives ?

Les données alternatives sont des informations collectées auprès de sources alternatives que les autres acteurs n'exploitent pas – autrement dit, des sources de données non traditionnelles. L'analyse des données alternatives peut délivrer des insights au-delà de ce que nous disent les sources habituelles de l'industrie. Toutefois, ce qu'on considère comme des données alternatives varie d'un secteur à l'autre, car tout dépend de ce que vos concurrents et vous utilisez déjà comme sources de données traditionnelles.

Types de données alternatives classiques

Certaines catégories de données sont couramment employées comme données alternatives :

données des communications par satellite,
données mobiles,
Données de capteurs
données web.

Mais il existe d'autres sources :

Géolocalisation (fréquentation)
Transactions par carte de crédit
Reçus par e-mail
Transactions en points de vente
Publications sur les réseaux sociaux
Activité de navigation
Reçus des conteneurs d'expédition
Avis sur les produits
Outils de suivi des prix
Météorologie et microclimats
Outils de suivi des vols et des expéditions

Types de données alternatives classiques

Au cours des dernières années, les données provenant des appareils mobiles, des satellites, des capteurs et des sites web ont considérablement augmenté. Ces énormes volumes de données structurées, semi-structurées et non structurées sont regroupés sous l'appellation générique de big data. Les données alternatives permettent d'obtenir des éclairages uniques, d'acquérir un avantage compétitif sur son marché et d'augmenter les profits. Vous pouvez combiner les données de différentes sources pour obtenir une image nette du paysage concurrentiel de l'entreprise.L'acquisition de ces données alternatives peut se faire de trois façons :

Acquisition de données brutes
Licences tierces
Scraping, également appelé moisson ou extraction de données web. Un scraper web est une interface de programmation d'application (API) qui extrait les données d'un site web et peut collecter des insights précis sur un sujet décisif pour réussir dans votre secteur d'activité. Les formes les plus récentes de scraping web consistent à écouter des flux de données émis par les serveurs web. Pour prendre un exemple, on utilise souvent JSON comme mécanisme de stockage pendant le transit entre le client et le serveur web.

Techniques de scraping automatisé

Lecture HTML : la lecture HTML se fait à l'aide de scripts Java et cible les pages HTML linéaires et imbriquées.
Lecture du DOM : le modèle d'objet du document, ou DOM, définit le style, la structure et le contenu des fichiers XML.
Agrégation verticale : les plateformes d'agrégation verticale, créées par les organisations, possèdent une grande puissance de calcul et visent des segments verticaux spécifiques.
XPath : le langage XML Path ou XPath est un langage de requête applicable aux documents XML.
Google Docs : vous pouvez utiliser les feuilles de calcul Google comme vous écririez un scraper dans un langage de programmation comme Python ou Ruby. C'est donc une bonne introduction aux fondamentaux de certains types de scrapers.
Reconnaissance de motifs textuels : cette technique de reconnaissance par expression rationnelle utilise une commande grep UNIX en association avec des langages de programmation courants comme Perl ou Python.

Ressources complémentaires

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs

Que sont les données alternatives ?

Types de données alternatives classiques

Le guide pratique de l'IA agentique pour l'entreprise

Techniques de scraping automatisé

Ressources complémentaires

Recevez les derniers articles dans votre boîte mail

Sign up