Databricks의 멀티 에이전트 AI 시스템이 CPS ID 문제를 해결하는 방법
작성자: Ben Hazan, Anton Berlinsky, Ohad Avni, Itay Wagner, Guy Zalcman , Dor Bdolach, Ravid Ariely , Gal Sberro
수십 년 동안 공장, 병원 및 중요 인프라를 가동하는 기계인 사이버 물리 시스템(CPS)의 세계는 조용한 "정체성 위기"를 겪어왔습니다. IT 관리자는 네트워크의 모든 노트북을 쉽게 식별할 수 있지만, OT(운영 기술) 보안 팀은 종종 공장 현장에서 실행되는 것이 정확히 무엇인지 파악하는 데 어려움을 겪습니다.
Claroty의 Team82 연구 팀의 최근 보고서는 놀라운 현실을 밝혔습니다. CPS 자산의 88%는 정확한 제품 코드를 전송하지 않으며, 76%는 공급업체의 공식 기록과 다른 제품 코드를 사용합니다. 이러한 "디지털 출생 증명서"의 부족은 보안 팀이 일관성 없는 리소스에서 정보를 수동으로 조합해야 하므로 취약성 관리를 거의 불가능하게 만듭니다.
이를 해결하기 위해 Claroty는 최근 산업 및 의료 하드웨어의 "범용 번역기" 역할을 하도록 설계된 최초의 권위 있는 매핑 엔진인 AI 기반 CPS 라이브러리를 공개했습니다.
핵심적으로 이것은 개체 해결(ER) 과제이며 시스템의 목적은 노이 즈가 많은 실제 데이터를 단일 진실 공급원으로 일치시키고 통합하여 정체성 위기를 해결하는 것입니다. 높은 충실도의 결정론적 추적성을 달성하기 위해 표준 일치 알고리즘을 넘어, 입증된 클래식 ER 방법과 생성 AI의 인지 능력을 결합한 하이브리드 아키텍처를 엔지니어링했습니다.
중요한 업계의 고충에 대응하여 Databricks의 GenAI MVP 프로그램과 협력했습니다. 이 협력은 당사의 전문화된 오퍼링과 Databricks의 데이터 및 AI 기능을 활용하여 문제에 대한 확실한 솔루션을 제공합니다.
공장의 일반적인 상황을 상상해 보세요. Claroty의 xDome은 CIP 프로토콜을 사용하는 1769-L36ERMS/B와 같은 모델 번호가 있는 장치를 찾습니다. 사람이나 간단한 보안 도구에게는 이것이 Rockwell Automation의 내부 코드일 뿐이며, 취약성 데이터베이스에 없고 즉시 위험을 시사하지 않습니다.
이 장치를 보호하려면 직원이 일반적으로 수동으로 파악해야 하며, 여기에는 다음이 포함됩니다.
이러한 수동 "탐정 작업"은 종종 보안이 실패하는 지점입니다. AI 기반 CPS 라이브러리는 이 전체 프로세스를 자동화합니다. 내부 코드를 즉시 인식하고 상용 이름에 연결하며 특정 부품 및 펌웨어 버전을 식별하고 올바른 CVE를 확실한 정확도로 첨부하여 혼란스러운 문자열을 밀리초 내에 명확하고 안전한 설정으로 전환합니다.
CPS 라이브러리는 단순한 데이터베이스가 아니라 "라스트 마일" 수정을 가능하게 하는 다중 에이전트 AI 시스템입니다. 업계 거대 기업과 협력하여 Claroty는 복잡한 네트워크 데이터를 단일 진실 공급원으로 조정하는 증거 그래프를 구축했습니다.
주요 혁신 사항:
1,700만 개 이상의 자산과 그 복잡한 종속성의 글로벌 카탈로그를 관리하기 위해 Claroty는 통합 백본으로 Databricks 데이 터 인텔리전스 플랫폼을 활용합니다. Lakehouse 아키텍처를 채택함으로써 Claroty는 기존 데이터 사일로를 제거하여 독점 OT 프로토콜 및 API 호출부터 비정형 공급업체 PDF 설명서에 이르기까지 다양한 데이터 세트를 단일의 확장 가능한 환경으로 수집할 수 있습니다. 이 기반은 수백만 개의 데이터 포인트에 걸쳐 복잡한 통계 추론 모델을 실행하는 데 필요한 고성능 컴퓨팅을 제공하여 모든 CPS-ID(Claroty의 사이버 물리 시스템 ID에 대한 새로운 업계 표준)가 엄격한 데이터 무결성과 교차 사일로 인텔리전스로 뒷받침되도록 합니다.
이 생태계를 구동하는 것은 Delta Lake에 구축되고 Unity Catalog에서 관리되는 강력한 메달리언 아키텍처입니다. 여정은 원시의 이기종 JSON 페이로드가 추가 전용 Delta 테이블에 캡처되는 Bronze 계층에서 시작됩니다. 거기에서 Delta 변경 데이터 피드(CDF)에서 읽는 승격 파이프라인을 통해 매핑 레지스트리를 동적으로 적용하여 원시 증거를 관리되는 표준 스키마로 변환합니다. Delta Lake의 스키마 진화 및 시간 여행을 활용하여 Claroty는 깨지지 않는 관리 체인을 유지합니다. 모든 자산 레코드는 원래 원시 아티팩트와 이를 분류한 특정 매핑 버전까지 추적할 수 있어 가장 민감한 산업 환경에서도 완전한 감사 가능성을 보장합니다.
이 하이브리드 엔진의 가장 정교한 부분은 Databricks의 사용자 지정 에이전트 사용입니다. 단일 모놀리식 모델에 의존하는 대신 Claroty는 복잡한 신호 를 해석하기 위해 협업하는 동기화된 네트워크인 오케스트레이션 다중 에이전트 시스템을 엔지니어링했습니다.
이러한 에이전트에 안정적인 컨텍스트를 제공하기 위해 독점 소스에서 수집된 구조화된 데이터의 클래식 통계 분석과 공급업체 문서, 기술 데이터 시트 및 공개 웹 소스의 노이즈에서 신호를 추출하는 고급 NLP 기술을 결합합니다. Databricks의 Unity Catalog는 이러한 다양한 데이터 세트를 통합하는 데 필요한 관리되는 데이터 기반을 제공하며, Spark 기반 파이프라인은 대규모로 정보를 처리하고 정규화합니다. 이러한 기능은 함께 분편화되고 일관성 없는 정보를 에이전트가 정확한 개체 해결 일치를 제공하는 데 필요한 정확하고 컨텍스트화된 답변으로 합성합니다.
시스템은 세 가지 핵심 구성 요소를 중심으로 구축됩니다.
이 아키텍처의 성공은 에이전트 자체뿐만 아니라 이를 지원하는 Databricks 기반의 엔드투엔드 생태계에 있습니다. MVP에서 프로덕션까지 속도와 안정성으로 이동하기 위해 플랫폼의 전체 기능을 활용했습니다.
1. 모델 서빙을 통한 도메인별 인텔리전스 의료 및 OT의 미묘한 차이를 다루기 위해 일반 임베딩은 필요한 정밀도 수준에 충분하지 않았습니다. "범용 번역기"가 진정으로 성공하려면 일반 RAG 아키텍처가 도메인별 프레임워크로 발전해야 한다고 판단했습니다. 현재 Databricks 모델 서빙을 사용하여 최고 수준의 의료 임베딩 모델을 사용자 지정 엔드포인트로 배포하여 이 격차를 해소하고 있습니다. 그러나 미래를 내다볼 때, 당사 에이전트가 가장 모호한 산업 방언을 결정론적 정확도로 이해하도록 보장하기 위해 이러한 모델을 미세 조정하는 것이 다음 논리적 단계라고 봅니다.
2. 고급 RAG 및 정보 추출 지식 도우미를 활용하여 방대한 양의 독점 문서를 수집할 수 있는 강력한 RAG(검색 증강 생성) 시스템을 구축했습니다. 정보 추출 에이전트를 사용하여 비정형 독점 문서를 구조적으로 구문 분석하여 원시 텍스트를 CPS 라이브러리에 대한 실행 가능한 인텔리전스로 변환합니다.
3. MLflow를 통한 전체 수명 주기 관리 초기 MVP 단계부터 엄격한 평가 및 최종 배포에 이르기까지 ML 개발 수명 주기의 백본 역할을 하는 MLflow를 사용하여 모델을 관리했습니다.
클래식 엔티티 해결 방법과 정교하고 조정된 다중 에이전트 전략을 Databricks의 강력한 인프라 지원과 결합하여 자체 개선되고 비용 효율적이며 매우 정확한 인텔리전스 계층을 만들었습니다. 이 시스템은 마침내 지저분한 네트워크 데이터와 단일 진실 공급원 간의 격차를 해소하여 CPS 보안의 ID 문제를 해결합니다.
다양한 소스의 방대한 정보를 처리하기 위해 Claroty는 Lakeflow Jobs를 사용하여 원시 데이터에서 잘 구조화된 테이블까지 전체 프로세스를 조정합니다.
당사의 파이프라인 중 하나는 CSAF(JSON 형식 보안 권고)를 테이블 형식 구조로 구문 분석하는 ETL 프로세스를 조정합니다. 이 프로세스에서 각 단계는 전용 델타 테이블에 항목을 읽고 씁니다.
이 ETL 및 더 많은 사용 사례에서 LLM을 사용하여 분류 작업 및 ai_query와 같은 Serving endpoints 및 MLflow를 사용하여 LLM에서 얻은 답변을 평가하고 통계 메트릭 및 LLM-as-a-judge를 사용하며 비용을 모니터링하는 등 데이터를 강화합니다.
이 파이프라인을 대규모로 안정적으로 유지하기 위해 LLM을 심판으로 접근 방식을 사용하여 자체 LLM 출력의 품질을 지속적으로 평가합니다. 종종 실제 CPS 데이터에서 누락되거나 모호한 완전한 레이블이 지정된 정답에만 의존하는 대신, 전용 심판 모델이 다른 모델의 응답을 검토하여 허용 가능한지 여부를 결정하도록 합니다. 심판의 작업은 간단하고 보수적입니다. 각 결과를 통과(올바르게 보임), 실패(잘못 보임) 또는 알 수 없음(정보 부족)으로 표시합니다. 이러한 모든 심판은 Delta table에 저장됩니다. 이 방법을 사용하면 팀은 평가 샘플을 로드하고 사용자 지정 MLflow GenAI 심판을 시작하고 구조화된 평가를 실행할 수 있습니다. MLflow GenAI 모니터링 기본 기능은 맞춤형 평가 스택을 구축할 필요 없이 품질을 모니터링하고 버전을 비교하며 회귀를 포착하는 일관된 방법을 제공합니다.
"Library"가 작동하려면 데이터가 일관되고 고가용성이어야 합니다. Claroty는 Databricks의 완전 관리형 트랜잭션 데이터 계층인 Lakebase를 통합합니다. Lakebase는 Postgres를 기반으로 하며 분석 처리를 위해 더 넓은 Lakehouse와의 원활한 연결을 유지하면서 실시간 쿼리에 필요한 낮은 지연 시간 성능을 제공합니다. 엄격한 제약 조건을 통해 데이터의 높은 품질을 유지하고 구성이 변경되어도 자산 매핑이 정확하게 유지되도록 합니다.

이러한 모든 인사이트를 통합하기 위해 Claroty는 Databricks 환경 내에서 완전한 스택의 데이터 집약적인 애플리케이션을 직접 구축하고 배포할 수 있는 기능인 Databricks Apps를 활용합니다. 최신 UI 프레임워크(React 또는 Streamlit 등)를 프런트엔드에 사용하고 트랜잭션 워크로드를 위해 Databricks의 완전 관리형 Postgres OLTP 데이터베이스인 Lakebase를 사용하여 애플리케이션 로직과 운영 데이터를 Lakehouse와 동일한 플랫폼에 호스팅할 수 있습니다. 이는 애플리케이션이 플랫폼의 기본 보안, 거버넌스 및 인증(Unity Catalog 및 OAuth를 통해)을 상속하는 동시에 별도의 앱 서버, 데이터베이스 및 배포 파이프라인의 필요성을 제거함을 의미합니다. 전통적으로 여러 기술 스택과 서비스를 연결해야 했던 것이 단일의 비용 효율적이고 강력한 솔루션으로 통합됩니다.
AI 파이프라인이 많은 작업을 자동화하지만, 현장에서 신뢰를 구축하는 데 가장 필요한 것은 휴먼 인 더 루프 SME 피드백입니다. Databricks App 및 Lakebase를 통해 투명한 보기와 원활한 "휴먼 인 더 루프" 피드백 주기를 활성화합니다. 이 직관적인 인터페이스를 통해 도메인 전문가는 분류를 검토하고, 엔티티를 수정 및 보강하며, 고품질의 검증된 데이터를 MLflow 파이프라인 및 R&D 마이그레이션에 다시 피드하여 시스템이 시간이 지남에 따라 더 똑똑하고 정확해지도록 보장할 수 있습니다.

Claroty의 OT 프로토콜에 대한 깊은 도메인 전문 지식과 Databricks 플랫폼의 강력한 기능을 결합함으로써 CPS 라이브러리는 새로운 표준을 설정하고 있습니다. 더 이상 장치가 존재한다는 것을 보는 것만이 아니라, 그것이 정확히 무엇인지, 어떤 위험을 가지고 있는지, 그리고 어떻게 총체적인 확신으로 그것을 수정할 수 있는지 아는 것이 중요합니다.
이 분야에서 Claroty의 리더십은 최근 2025 Gartner® Magic Quadrant™ for CPS Protection Platforms에서 "실행 능력" 최고 순위를 기록하며 리더로 선정됨으로써 검증되었습니다. 업계가 발전함에 따라 이러한 "ID 우선" 접근 방식은 모든 연결된 환경에서 회복탄력성을 발전시키는 기초가 될 것입니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.