La mission de Thumbtack est simple mais ambitieuse : permettre aux gens de gérer leur maison en toute confiance et sans effort en rendant chaque service, réparation et amélioration fiable et sûr. Nous soutenons les économies locales en mettant en relation des millions de propriétaires dans tout le pays avec plus de 300 000 professionnels qualifiés, des plombiers et électriciens aux prestataires de bien-être et organisateurs d'événements. L'opportunité est immense, tout comme la complexité. Notre objectif est de garantir des résultats constants et exceptionnels pour chaque client, à chaque fois.
L'évolution rapide des services à domicile et les attentes croissantes des clients signifient que nous améliorons continuellement notre plateforme — les volumes de données, les besoins imprévisibles des clients et des professionnels, et l'expansion des catégories de services présentent des défis techniques et organisationnels. Thumbtack était confrontée à des workflows de Data Science et de Data Engineering fragmentés, une infrastructure en silos et des exigences élevées en matière de confidentialité et de sécurité.
Relever ces défis a exigé plus que des algorithmes intelligents ou une infrastructure plus rapide. Cela a nécessité une plateforme de données et de machine learning connectée et digne de confiance qui place la sécurité, la confidentialité et la collaboration au cœur de ses préoccupations. Notre approche : unifier notre écosystème GenAI sur Databricks pour générer un impact réel et mesurable.
Le pipeline semi-automatisé d'examen des messages de Thumbtack est la colonne vertébrale de notre plateforme de confiance digital. Chaque message, entre un client et un professionnel, est analysé à la fois par un moteur basé sur des règles et par un modèle de machine learning. Si les cas d'abus classiques peuvent être détectés par des règles simples, de nombreuses violations de règles plus nuancées ne le peuvent pas. Les premiers systèmes basés sur les réseaux de neurones convolutifs (CNN) avaient du mal à faire la différence entre le sarcasme, le contexte ou les menaces implicites.
L'affinement des grands modèles de langage sur les propres données étiquetées de Thumbtack a fait une différence radicale. Avec notre flux de travail hybride, un modèle CNN pré-filtre les messages clairement acceptables, réduisant la charge de travail du LLM de 80 %. Le LLM affiné concentre ensuite sa puissance sur les 20 % les plus difficiles, multipliant la précision de la détection par 3,7 et le rappel par 1,5. Des dizaines de millions de messages sont traités chaque année, garantissant la sécurité des conversations tout en maintenant des interactions honnêtes et en évitant des coûts superflus.
Tous les workflows d'IA avancée et de confiance chez Thumbtack s'exécutent désormais sur une plateforme de ML unifiée basée sur Databricks. Les principaux investissements et mesures de protection sont les suivants :
Alors que Thumbtack poursuit son parcours GenAI, chaque équipe a les moyens d'expérimenter, de collaborer et de proposer des expériences de services à domicile plus sûres et plus intelligentes. Cette stratégie est ancrée dans un impact concret, démontrant comment l'IA, la confidentialité et une réflexion axée sur la plateforme se combinent pour créer de la valeur à la fois pour les professionnels et les propriétaires.
Regardez la présentation de Thumbtack Boosting Data Science and AI Productivity With Databricks Notebooks au Data + AI Summit 2025.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Líder de dados
October 16, 2025/8 min de leitura
Líder de dados
November 6, 2025/8 min de leitura


