주요 컨텐츠로 이동
솔루션

Databricks가 비디오를 검색 가능하고 실행 가능한 인텔리전스로 변환하는 방법

작성자: 저스틴 모날도, 케이시 허탄 , Yvan Aquino

  • 공공 부문 기관이 드론과 카메라의 원본 비디오를 검색 가능하고 AI에 바로 사용할 수 있는 인텔리전스로 변환하는 방법
  • Databricks가 VLM, 서버리스 GPU 및 Lakeflow 파이프라인을 사용하여 주요 비디오 순간을 자동으로 감지, 단축 및 요약하는 방법
  • 확장 가능하고 모델 애그노스틱한 아키텍처가 공공 안전, 인프라 및 도시 운영을 위한 실시간 비디오 분석을 지원하는 방법

한 유틸리티 기업은 수백 마일에 달하는 송전선을 점검하기 위해 드론을 배치합니다. 경찰서는 뺑소니 사고를 조사하기 위해 몇 시간 분량의 교통 카메라 영상을 확보합니다. 도시 계획 팀은 카메라 영상을 활용하여 보행자와 교통 흐름을 분석합니다.

운영 효율성부터 공공 안전에 이르기까지 모든 분야에 귀중한 인사이트를 제공할 수 있는 수 테라바이트의 비디오 데이터가 매일 생성됩니다. 하지만 의미 있는 방식으로 분석되는 데이터는 거의 없습니다. 이러한 비정형 비디오 데이터를 일일이 찾아보는 데 엄청난 시간과 비용이 소요되기 때문입니다.

대규모 비디오 콘텐츠에 자연어 쿼리를 간단히 적용하여 특정 콘텐츠를 찾는 것을 넘어, 이를 분석하고 평가하며 학습할 수 있다고 상상해 보세요.

Databricks가 바로 이를 지원합니다. 접근 방식은 무엇일까요? 비디오를 데이터 엔지니어링 문제로 취급하는 것입니다.

Databricks는 비디오 분석에 대한 접근 방식을 어떻게 바꾸었을까요?

비디오 분석에 대한 전통적인 접근 방식은 더 많은 인간 분석가를 투입하는 것이었습니다. 딥러닝, 컴퓨터 비전, 그리고 가장 최근에는 비전 언어 모델(VLM)의 발전으로 컴퓨터가 비디오 속 객체를 높은 정확도로 식별할 수 있게 되었습니다. 하지만 방대한 양의 비정형 데이터로 추론을 확장하고 파이프라인을 오케스트레이션하는 작업은 조직이 이러한 파이프라인을 구축하는 데 있어 물류적인 어려움을 초래했습니다. 특히 VLM을 이 문제에 적용할 때 더욱 그렇습니다. VLM은 프롬프팅에 유연성을 제공하여 사용 전에 특정 클래스에 대해 모델을 사전 학습시키거나 미세 조정할 필요가 없지만, 기존의 객체 탐지 모델보다 크고 느려 확장성 문제를 야기합니다.

Databricks에서는 모델 추론 및 인프라의 복잡성 대신, 이러한 모델을 사용한 비디오 분석이 데이터 파이프라인에 어떻게 적합하게 통합되는지에 집중할 수 있습니다.

image2.gif
사용자는 VLM과 자연어를 사용하여 비디오 영상을 즉시 검색할 수 있습니다.

Databricks는 대규모 비디오를 어떻게 처리하고 분석하나요?

이 접근 방식은 Databricks 워크스페이스에 직접 배포된 Databricks 앱에서 확인할 수 있습니다. 사용자는 비디오를 업로드하거나 이미 Databricks 볼륨에 저장된 비디오를 지정하고, 찾고자 하는 대상을 설명하는 자연어 프롬프트(예: 흰색 박스 트럭, 보안 요원, 태양광 패널)를 직접 입력한 후 클릭 한 번으로 처리 파이프라인을 시작합니다.

여기서부터 Databricks Serverless GPU Compute (SGC)가 작업을 인계받습니다. Lakeflow 작업이 트리거되어 사전 준비된 GPU를 확보하고, 몇 초 내에 Meta의 SAM3 세그멘테이션 모델을 통해 비디오 처리를 즉시 시작합니다. 이 모델은 비디오의 각 프레임에서 프롬프트와 일치하는 관심 객체를 식별합니다. 비디오는 해당 순간으로만 축소되어 다른 Databricks 볼륨에 다시 기록됩니다. 예를 들어, 26분짜리 교통 카메라 영상이 관련 장면만 담긴 1분 55초 분량으로 단축되었으며, 원본 타임스탬프가 보존되어 검토자가 필요한 경우 원본 소스로 돌아갈 수 있습니다. 단축된 각 클립은 AI 기반 요약을 위해 Databricks Foundation Model API (FMAPI)를 통해 파운데이션 모델로 전달되며, 테이블에 기록되거나 추가적인 다운스트림 프로세스로 전달될 수 있는 텍스트 데이터를 제공합니다.

이 전체 프로세스는 데이터 엔지니어링 문제로 취급되므로 파이프라인은 명확하게 모델 애그노스틱하며, MLflow를 활용하여 사용자가 선호하는 모델을 선택하거나 새로운 또는 미세 조정된 모델을 워크플로우에 가져올 수 있도록 지원합니다. MLflow 모델 시그니처는 모델 입력 및 출력을 표준화하여 연속성과 유연성을 보장합니다. Huggingface에서 다운로드하거나 처음부터 학습시킨 모든 모델을 이 파이프라인에서 활용할 수 있습니다. SAM3는 YOLO 모델, 기타 트랜스포머 기반 비전 모델 또는 미세 조정된 도메인 특화 모델로 교체할 수 있습니다.”

이러한 유연성은 요약 및 이상 탐지 레이어에도 적용됩니다. 어떤 멀티모달 파운데이션 모델이나 더 작은 이미지 캡셔닝 모델이든 사용하여 프레임 콘텐츠를 텍스트 설명으로 변환할 수 있습니다. 이러한 텍스트 설명을 확보하면 분석가 검토를 위해 비디오를 요약하거나 예기치 않은 콘텐츠를 식별하고 검토를 위해 비디오 세그먼트를 표시하는 텍스트 기반 AI 워크플로우에 피딩할 수 있습니다. 파이프라인을 손상시키지 않으면서 모델을 상호 교체할 수 있으므로, 이 예시는 거의 모든 비디오 처리 사용 사례로 확장 가능합니다.

서버리스 GPU 컴퓨팅은 대중적인 NVIDIA GPU 및 딥러닝 프레임워크와 함께 작동하도록 사전 구성되어 있으므로, 데이터 엔지니어링 코드를 작성하기만 하면 됩니다. GPU 컴퓨팅 용량이나 CUDA와의 Python 패키지 버전 호환성에 대해 걱정할 필요가 없습니다.

파이프라인은 대규모 비디오를 어떻게 처리하나요?

앱으로 트리거되는 워크플로우는 파이프라인과 상호 작용하는 한 가지 방법일 뿐입니다. 동일한 파이프라인을 파일 또는 이벤트 기반 프로세스로 실행할 수 있습니다. 비디오가 Databricks 볼륨에 도달하면 사람의 개입 없이 자동으로 LakeFlow 작업을 트리거하여 단축된 출력과 텍스트 기반 분석을 생성합니다. 다운스트림에서 해당 텍스트는 알림을 트리거하거나, 검토자에게 라우팅하거나, 추가 AI 처리에 피딩될 수 있습니다.

image3.gif
Databricks는 단축된 비디오와 AI 기반 요약을 생성하여 신속하거나 자동화된 검토를 위해 가장 관련성이 높은 순간만 보여줍니다.

동시성은 간단한 구성을 통해 처리됩니다. 한 번에 20개의 비디오를 넣으면 동시에 실행되는 동일한 작업의 20개 버전이 시작됩니다. 각 작업은 독립적으로 자체 서버리스 GPU 컴퓨팅을 확보하여 필요에 따라 수평적으로 확장하고, 완료되면 리소스를 해제합니다. 클러스터 관리가 필요 없으며, 사용하지 않을 때는 GPU 비용을 지불하지 않습니다.

비디오 인텔리전스는 어디에 적용할 수 있나요?

이 앱과 파이프라인은 시작점일 뿐입니다. 모든 Databricks 워크스페이스에 배포한 후 기본 아키텍처는 대량의 비디오를 처리, 검색 또는 요약해야 하는 모든 시나리오를 지원합니다. 여기에는 인프라 점검, 물리적 보안, 공공 안전, 공항 운영 등이 포함됩니다. 앱 및 파이프라인 코드가 포함된 GitHub 리포지토리는 이를 배포, 확장 또는 자체 사용 사례에 맞게 조정하려는 팀을 위해 공개적으로 제공됩니다.

image1.png
Databricks는 대규모 비디오를 수집, 처리 및 분석하여 몇 분 만에 검색 가능한 인사이트를 제공하는 엔드투엔드 비디오 인텔리전스 파이프라인을 오케스트레이션합니다.

지금 Databricks에서 비디오 인텔리전스 파이프라인을 구축해 보세요

복잡한 ML 워크플로우 없이 대량의 비디오를 처리, 요약 및 검색하는 방법을 알아보세요. 공공 부문용 Databricks를 살펴보고 공공 부문 팀에 문의해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.