Revenir au contenu principal
Solutions

Comment Databricks transforme la vidéo en informations exploitables et consultables

par Justin Monaldo, Kacey Hertan et Yvan Aquino

  • Comment les organismes du secteur public peuvent transformer les vidéos brutes issues de drones et de caméras en données exploitables, prêtes pour l'AI et consultables
  • Comment Databricks utilise les VLM, les GPU serverless et les pipelines Lakeflow pour détecter, tronquer et résumer automatiquement les moments clés des vidéos
  • Comment une architecture évolutive et agnostique vis-à-vis des modèles permet d'analyser les vidéos en temps réel pour la sécurité publique, les infrastructures et les opérations urbaines

Une entreprise de services publics déploie des drones pour inspecter des centaines de kilomètres de lignes électriques. Un service de police extrait des heures d'enregistrement de caméras de surveillance pour enquêter sur un délit de fuite. Une équipe d'urbanisme s'appuie sur des images de caméras pour analyser le flux de piétons et de circulation.

Des téraoctets de données vidéo sont générés chaque jour, offrant des informations précieuses sur tous les aspects, de l'efficacité opérationnelle à la sécurité publique. Pourtant, presque aucune de ces données n'est analysée de manière significative. En effet, l'examen de ces données vidéo non structurées s'avère extrêmement long et coûteux.

Imaginez pouvoir simplement appliquer des requêtes en langage naturel à du contenu vidéo à grande échelle, non seulement pour trouver un contenu spécifique, mais aussi pour l'analyser, l'évaluer et en tirer des enseignements.

C'est précisément ce que permet Databricks. L'approche ? Traiter la vidéo comme un problème d'ingénierie des données.

Comment Databricks a-t-il changé l'approche de l'analyse vidéo ?

L'approche traditionnelle de l'analyse vidéo consiste à mobiliser toujours plus d'analystes humains. Les progrès du deep learning, de la vision par ordinateur et, plus récemment, des vision language models (VLM) permettent désormais aux ordinateurs d'identifier des objets dans des vidéos avec une grande précision. Cependant, la mise à l'échelle de l'inférence et l'orchestration de pipelines contenant d'immenses quantités de données non structurées compliquent la logistique de création de ces pipelines pour les organisations. C'est particulièrement vrai pour l'application des VLM à ce problème. Les VLM offrent une grande flexibilité dans le prompting, car ils ne nécessitent pas de pré-entraînement ou de fine-tuning sur des classes spécifiques avant utilisation, mais ils sont plus volumineux et plus lents que les modèles traditionnels de détection d'objets, ce qui pose des défis de mise à l'échelle.

Avec Databricks, vous pouvez vous concentrer sur l'intégration de l'analyse vidéo via ces modèles dans vos pipelines de données, plutôt que sur la complexité de l'inférence de modèles et de l'infrastructure.

image2.gif
Les utilisateurs peuvent rechercher instantanément des séquences vidéo à l'aide de VLM et du langage naturel.

Comment Databricks traite-t-il et analyse-t-il les vidéos à grande échelle ?

Cette approche peut être illustrée dans une application Databricks déployée directement dans un espace de travail Databricks. L'utilisateur importe une vidéo ou pointe vers une vidéo déjà stockée dans un Volume Databricks, saisit directement un prompt en langage naturel décrivant ce qu'il recherche (par exemple, des camions fourgons blancs, des agents de sécurité, des panneaux solaires) et lance le pipeline de traitement en un seul clic.

À partir de là, Databricks Serverless GPU Compute (SGC) prend le relais. Un job Lakeflow est déclenché, récupérant des GPU pré-activés pour commencer immédiatement à traiter la vidéo via le modèle de segmentation SAM3 de Meta en quelques secondes. Le modèle identifie les objets d'intérêt correspondant au prompt dans chaque image de la vidéo. La vidéo est tronquée pour ne conserver que ces moments et réécrite dans un autre Volume Databricks. Par exemple, une vidéo de caméra de circulation de 26 minutes a été réduite à une minute et 55 secondes de séquences pertinentes, tout en préservant les horodatages d'origine pour que les réviseurs puissent revenir à la source si nécessaire. Chaque clip tronqué est ensuite transmis à un modèle de fondation via l'API Databricks Foundation Model (FMAPI) pour une génération de résumé par AI, fournissant des données textuelles qui peuvent être écrites dans une table ou transmises à d'autres processus en aval.

Puisque l'ensemble de ce processus est traité comme un problème d'ingénierie des données, le pipeline est explicitement agnostique vis-à-vis du modèle. Il s'appuie sur MLflow pour permettre aux utilisateurs de choisir le modèle de leur choix, ou même d'intégrer des modèles nouveaux ou ajustés au workflow. Les signatures de modèle MLflow standardisent les entrées et sorties du modèle pour garantir la continuité et la flexibilité. Tout modèle téléchargé depuis Huggingface ou entraîné de zéro peut être utilisé dans ce pipeline. SAM3 peut être remplacé par des modèles YOLO, d'autres modèles de vision basés sur des transformers, ou des modèles spécifiques à un domaine ajustés.

Cette flexibilité s'étend également à la couche de résumé et de détection d'anomalies. Tout modèle de fondation multimodal ou des modèles plus petits de génération de légendes d'images (image captioning) peuvent être utilisés pour convertir le contenu des images en descriptions textuelles. Ces descriptions textuelles peuvent alimenter des workflows AI textuels pour résumer la vidéo à l'intention des analystes, ou pour identifier des contenus inattendus et signaler des segments vidéo à examiner. Le fait de rendre les modèles interchangeables sans interrompre le pipeline rend cet exemple extensible à presque tous les cas d'usage de traitement vidéo.

Le calcul GPU serverless étant préconfiguré pour fonctionner avec les GPU NVIDIA populaires et les frameworks de deep learning, il vous suffit d'écrire votre code d'ingénierie des données. Vous n'avez pas à vous soucier de la capacité de calcul des GPU ni de la compatibilité des versions des packages Python avec CUDA.

Comment le pipeline gère-t-il les vidéos à grande échelle ?

Le workflow déclenché par l'application n'est qu'un moyen parmi d'autres d'interagir avec le pipeline. Le même pipeline peut s'exécuter sous forme de processus piloté par des fichiers ou des événements : une vidéo arrive dans un Volume Databricks, ce qui déclenche automatiquement le job Lakeflow pour produire le résultat tronqué et l'analyse textuelle sans aucune intervention humaine. En aval, ce texte peut ensuite déclencher des alertes, être acheminé vers des réviseurs ou alimenter d'autres traitements AI.

image3.gif
Databricks génère une vidéo tronquée et un résumé optimisé par l'AI, ne présentant que les moments les plus pertinents pour un examen rapide ou automatisé.

La simultanéité est gérée via une configuration simple. Vous pouvez déposer 20 vidéos à la fois, et cela lancera 20 versions de ce même job s'exécutant en même temps. Chaque job s'approprie son propre calcul GPU serverless de manière indépendante, évoluant horizontalement selon les besoins, et libère les ressources une fois terminé. Aucune gestion de cluster n'est requise, et vous ne payez pas pour les GPU lorsqu'ils ne sont pas utilisés.

Où l'intelligence vidéo peut-elle être appliquée ?

Cette application et ce pipeline constituent un point de départ. Après le déploiement sur n'importe quel espace de travail Databricks, l'architecture sous-jacente prend en charge tous les scénarios nécessitant le traitement, la recherche ou le résumé de grands volumes de vidéos. Cela inclut l'inspection des infrastructures, la sécurité physique, la sécurité publique, les opérations aéroportuaires, et bien plus encore. Le dépôt GitHub contenant le code de l'application et du pipeline est public pour les équipes qui souhaitent le déployer, l'étendre ou l'adapter à leurs propres cas d'usage.

image1.png
Databricks orchestre un pipeline d'intelligence vidéo de bout en bout qui ingère, traite et analyse les vidéos à grande échelle pour fournir des informations consultables en quelques minutes.

Construisez votre pipeline d'intelligence vidéo sur Databricks dès aujourd'hui

Découvrez comment votre organisme peut traiter, résumer et rechercher d'immenses volumes de vidéos sans workflows ML complexes. Explore Databricks pour le secteur public et contactez notre équipe dédiée au secteur public.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.