주요 컨텐츠로 이동

자동차 산업의 미래를 열다(파트 2): 확장 가능한 지리 공간 분석 & AI 구현

자동차 및 모빌리티 혁신 주도: 실시간 지리 공간 데이터, AI, 확장 가능한 분석을 통해 이론에서 애플리케이션으로 나아가기

Unlocking the future of the Automotive Industry (Part 2): Implementing Scalable Geospatial Analytics & AI

Summary

  • Databricks를 사용하면 수집, 변환, 제공, 소비 등 지리 공간 데이터 관련 애플리케이션과 사용 사례를 제공할 수 있습니다.
  • 완전한 애플리케이션 개발 시 Unity Catalog는 지오코딩의 안전하고 통제되며 공유 가능한 관리를 제공하고, AutoML을 사용하면 머신 러닝 모델을 신속하게 생성할 수 있으며, Databricks Labs 데이터 생성기는 테스트 및 검증을 위한 합성 데이터 생성을 용이하게 합니다
  • Databricks는 이러한 사용 사례를 대규모로 개발하는 데 필요한 각 단계를 위한 통합 플랫폼을 제공하며, 제품 로드맵에는 더 많은 기능과 이점이 계획되어 있습니다.

1부에서는 자동차 산업의 지리 공간 분석을 주도하는 핵심 개념과 데이터세트를 살펴보았습니다. 2부에서는 Databricks에서 거버넌스와 성능을 유지하면서 AI, ML, 합성 데이터를 사용하여 확장 가능한 지리 공간 파이프라인을 구축하기 위한 실용적인 단계를 자세히 살펴보겠습니다.

프로덕션에 바로 사용할 수 있는 자동차 및 모빌리티 솔루션에서 이러한 아이디어를 구현하는 실제 코드와 아키텍처 패턴에 초점을 맞출 것입니다.

확장 가능한 지리 공간 분석 제공

Databricks의 데이터 인텔리전스 플랫폼은 강력한 지리 공간 분석과 AI를 결합하여 확장 가능하고 실시간 인사이트를 제공합니다. Liquid ClusteringH3 공간 인덱싱과 같은 기능으로 대규모 지리 공간 데이터세트를 빠르고 효율적으로 처리할 수 있습니다. 기본 내장 지리 공간 함수는 교통 패턴 매핑이나 도로 위험 평가와 같은 공간 작업을 단순화합니다. AutoML 은 날씨, 교통, 도로 조건을 고려하여 공격적인 운전 예측과 같은 사용 사례의 모델 개발을 가속화합니다. 이 플랫폼은 또한 데이터 액세스 및 공유를 안전하게 관리하는 Unity Catalog(UC)를 통해 강력한 거버넌스를 보장합니다. AI QueryUC 관리 함수 와 같은 도구를 사용하면 비정형 소스에서 구조화된 지리 공간 데이터를 쉽게 추출할 수 있습니다.

스마트 모빌리티 및 도로 안전을 위한 견고한 지리 공간 파이프라인 구축

이 게시물에서는 Databricks 데이터 인텔리전스 플랫폼에 구축된 전체 지리 공간 분석 파이프라인에 초점을 맞출 것입니다. 아래에서는 대화형 인사이트를 얻기 위해 지리 공간 데이터, LLM, Genie를 결합하는 메달리온 파이프라인을 보여줍니다.

확장 가능한 수집

Databricks는 광범위한 지리 공간 라이브러리 및 도구와 플랫폼이 통합되어 있어 대규모 지리 공간 데이터 수집이 원활합니다. Databricks 지리 공간 함수는 공간 데이터 처리를 향상시키기 위해 특별히 설계되었습니다. Auto Loader 는 클라우드 스토리지에 있는 수십억 개의 파일을 처리하는 데 가장 적합한 옵션이며, 개발 중에는 합성 데이터 생성을 대안으로 사용할 수 있습니다.

합성 텔레매틱스 데이터 생성

텔레매틱스는 민감하거나 개인적인 차량 정보를 노출하지 않고도 현실적인 테스트와 모델 개발을 가능하게 하므로 합성 데이터의 강력한 사용 사례입니다. 합성 데이터는 개발자의 창의력에 따라 SQL 또는 Python 로직을 사용하여 구축할 수 있지만 Databricks Labs Data Generator(dbldatagen) 라이브러리를 사용하면 이 프로세스가 훨씬 쉬워집니다. 이 라이브러리는 Spark에서 직접 대규모의 확장 가능한 합성 데이터세트를 생성할 수 있는 선언적 인터페이스를 제공합니다.

아래 예시에서는 dbldatagen을 사용하여 100만 행의 텔레매틱스 데이터를 시뮬레이션합니다. 이 설정을 통해 개발자는 프로덕션 데이터에 의존하지 않고 모델링 및 테스트를 위한 현실적인 데이터 세트를 생성할 수 있습니다.

변환 및 보강

분석 및 모델링을 지원하는 경로 생성

경로 생성은 지리 공간 데이터에서 효율적이고 위험을 인지하는 경로를 식별하여 최적화된 모빌리티, 안전 및 인프라 계획을 가능하게 합니다. 파이프라인에서는 승차 지점과 하차 지점 사이의 경로를 재구성하여 외부 요인과 연관시키고 더 깊은 인사이트를 얻습니다.

Databricks에서 개발자는 OpenStreetMap 데이터에 액세스하고 도로망에서 최적의 경로를 compute하는 오픈 소스 라이브러리인 osmnxnetworkx를 사용할 수 있습니다. 아래 예시에서는 이러한 도구를 applyInPandas 와 함께 사용하여 Spark 실행기 전반에서 라우팅을 병렬화합니다. 또한 OSRM이 탑재된 Databricks clusters를 사용하여 확장 가능한 경로 생성을 위한 솔루션 가속기 를 제공합니다.

참고: 이 샘플 코드는 각 worker 실행기에서 그래프 파일을 download할 필요가 없도록 하여 성능을 향상시키기 위해 sparkContext.broadcast를 사용하므로 전용 액세스 모델의 클러스터가 필요합니다.

Databricks Notebook에서 경로 생성 시각화
Route Generation Visualization in a Databricks Notebook

LLM으로 인사이트 구축

Databricks는 대규모 언어 모델(LLM)을 사용하여 우편번호와 같은 비정형 텍스트를 정형화된 지리 공간 데이터로 변환함으로써 지오코딩을 단순화합니다. 자연어 프롬프트를 사용하여 ai_query 함수는 외부 API에 의존하지 않고 databricks-meta-llama-3-70b-instruct endpoint를 호출하여 위도와 경도를 생성합니다.

결정론적 결과를 제공하기 위해서는 기존의 지오코딩 도구를 사용하는 것이 좋지만, 이 예시는 LLM을 통해 얼마나 쉽게 지리 공간 워크플로를 개선하고 위치 인텔리전스를 대중화할 수 있는지를 보여줍니다.

서비스

효율적인 지리 공간 데이터 인덱싱

지리 공간 워크로드는 다양한 query 패턴을 지원하기 위해 유연한 인덱싱이 필요합니다. Databricks는 H3 공간 인덱싱Liquid Clustering 과 통합하여 분석 쿼리 및 모델 학습 워크플로를 효율적으로 처리합니다. 이 조합은 명시적인 Z-ordering 없이 속도나 사회적 결정 요인과 같은 다른 속성과 결합된 공간 데이터에 대해 빠른 필터링을 가능하게 합니다.

아래 예시에서는 Liquid Clustering과 함께 기본 내장 H3 지원을 활용하는 방법을 보여줍니다. ST_Centroid 를 사용하여 지오메트리 중심점을 compute하고 ST_Transform 을 사용하여 이를 WGS84 좌표로 변환합니다. 그런 다음 h3_longlatash3 는 해상도 9에서 H3 인덱스를 생성하여 육각형 그리드 전체에서 빠르고 일관된 공간 query를 가능하게 합니다.

MERGE INTO 작업은 실버 Delta 테이블에 대한 멱등성 있는 업서트를 가능하게 하여 동일한 데이터를 여러 번 처리할 때 중복을 방지합니다. CLUSTER BY h3_index와 결합하면 레코드가 공간적 근접성을 기반으로 함께 배치됩니다. 정적 ZORDER와 달리, Liquid Clustering 은 미리 정의된 query 패턴 없이 H3 인덱스와 Timestamp 또는 차량 메트릭과 같은 필드에서 동적 클러스터링을 지원합니다. 이를 통해 더 빠른 조회, 효율적인 필터링, 확장 가능한 모델 훈련이 가능합니다. 자세한 내용은 Databricks H3 함수Liquid Clustering 설명서를 참조하세요.

Databricks 노트북에서 KeplerGl 라이브러리를 사용한 교통량 시각화
Traffic Volume Visualization in Databricks Notebook Using KeplerGl library

Unity Catalog UDF로 사용자 지정 로직 관리

Unity Catalog의 사용자 정의 함수(UDF) 는 대규모로 결정론적 지오코딩을 수행하기 위한 안전하고, 제어되며, 공유 가능한 방법을 제공합니다. 우편번호를 위도와 경도로 변환하는 것과 같은 로직을 중앙 집중화함으로써 여러 사용자 및 워크로드에서 로직과 결과가 일관되고 감사 가능하도록 보장합니다. 아래 코드는 공개 API를 사용하여 주어진 미국 ZIP 코드로 위도와 경도를 안전하게 반환하는 Python 기반 UDF를 Unity Catalog에서 정의합니다.

소비

AutoML 및 시계열을 사용한 교통량 예측

교통 패턴과 위험 운전 행동을 이해하는 것은 더 스마트하고 안전한 모빌리티를 위해 매우 중요합니다. Databricks AutoML 과 공간 인덱싱을 사용하면 팀은 깊이 있는 ML 전문 지식 없이도 시간 인식 모델을 구축할 수 있습니다.

아래 예시에서는 automl.forecast 를 사용하여 특정 위치( h3_index 로 정의됨)의교통량( vol)에 대한 시계열 모델을 훈련합니다. 모델은 단일 H3 셀에 집중하여 해당 지역의 시간적 추세를 포착합니다. AutoML은 특성 엔지니어링, 모델 튜닝, 학습을 처리하여 여러 구역에 걸친 혼잡 예측 및 난폭 운전 감지와 같은 사용 사례의 예측을 간소화합니다.

지리 공간 인텔리전스AI 및 실시간 처리와 결합하여 자동차 기업은 새로운 차원의 안전, 효율성, 혁신을 실현할 수 있습니다. 예측 유지보수부터 스마트 모빌리티 및 EV 최적화에 이르기까지, Databricks는 이러한 사용 사례를 대규모로 운영하는 데 필요한 통합 플랫폼을 제공합니다. 고객은 현재 H3 지리 공간 함수를 통해 상당한 가치를 실현하고 있으며, 제품 로드맵에는 훨씬 더 많은 기능이 계획되어 있습니다.

오토모티브 지리 공간 여정을 가속화할 준비가 되셨나요? 저희 지리 공간 솔루션 가속기를 살펴보고 지금 바로 여러분의 workspace에서 사용해 보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요