주요 컨텐츠로 이동
일체 포함

CPS의 로제타석: Claroty의 AI 기반 라이브러리

Databricks의 멀티 에이전트 AI 시스템이 CPS ID 문제를 해결하는 방법

작성자: Ben Hazan, Anton Berlinsky, Ohad Avni, Itay Wagner, Guy Zalcman , Dor Bdolach, Ravid Ariely , Gal Sberro

  • Claroty의 AI 기반 CPS 라이브러리는 1,700만 개 이상의 산업 및 의료 자산에 걸쳐 엔티티 확인을 자동화하여 88%의 CPS 장치에 정확한 제품 코드가 없는 자산 ID 문제를 해결합니다.
  • Databricks의 Custom Agents를 기반으로 구축된 멀티 에이전트 AI 시스템은 NLP 및 추론 에이전트와 휴먼 인 더 루프 피드백을 결합하고 Delta Lake의 Medallion Architecture를 통해 작동하여 파편화된 장치 신호를 결정론적 단일 진실 공급원으로 전환합니다.
  • 결과: MVP만으로도 취약성 속성 정확도가 25% 이상 향상되었으며 분석된 장치의 56% 이상이 이전에는 보이지 않았던 오래된 펌웨어에 대한 새로운 보안 권장 사항을 받았습니다.

CPS의 로제타석: Claroty의 혁신적인 AI 기반 라이브러리 내부

수십 년 동안 공장, 병원 및 중요 인프라를 가동하는 기계인 사이버 물리 시스템(CPS)의 세계는 조용한 "정체성 위기"를 겪어왔습니다. IT 관리자는 네트워크의 모든 노트북을 쉽게 식별할 수 있지만, OT(운영 기술) 보안 팀은 종종 공장 현장에서 실행되는 것이 정확히 무엇인지 파악하는 데 어려움을 겪습니다.

Claroty의 Team82 연구 팀의 최근 보고서는 놀라운 현실을 밝혔습니다. CPS 자산의 88%는 정확한 제품 코드를 전송하지 않으며, 76%는 공급업체의 공식 기록과 다른 제품 코드를 사용합니다. 이러한 "디지털 출생 증명서"의 부족은 보안 팀이 일관성 없는 리소스에서 정보를 수동으로 조합해야 하므로 취약성 관리를 거의 불가능하게 만듭니다.

이를 해결하기 위해 Claroty는 최근 산업 및 의료 하드웨어의 "범용 번역기" 역할을 하도록 설계된 최초의 권위 있는 매핑 엔진인 AI 기반 CPS 라이브러리를 공개했습니다.

핵심적으로 이것은 개체 해결(ER) 과제이며 시스템의 목적은 노이즈가 많은 실제 데이터를 단일 진실 공급원으로 일치시키고 통합하여 정체성 위기를 해결하는 것입니다. 높은 충실도의 결정론적 추적성을 달성하기 위해 표준 일치 알고리즘을 넘어, 입증된 클래식 ER 방법과 생성 AI의 인지 능력을 결합한 하이브리드 아키텍처를 엔지니어링했습니다.

중요한 업계의 고충에 대응하여 Databricks의 GenAI MVP 프로그램과 협력했습니다. 이 협력은 당사의 전문화된 오퍼링과 Databricks의 데이터 및 AI 기능을 활용하여 문제에 대한 확실한 솔루션을 제공합니다.

실제 모습

공장의 일반적인 상황을 상상해 보세요. Claroty의 xDome은 CIP 프로토콜을 사용하는 1769-L36ERMS/B와 같은 모델 번호가 있는 장치를 찾습니다. 사람이나 간단한 보안 도구에게는 이것이 Rockwell Automation의 내부 코드일 뿐이며, 취약성 데이터베이스에 없고 즉시 위험을 시사하지 않습니다.

이 장치를 보호하려면 직원이 일반적으로 수동으로 파악해야 하며, 여기에는 다음이 포함됩니다.

  1. 웹 검색: Rockwell의 카탈로그를 검색하여 이 코드가 Compact GuardLogix 5370 컨트롤러임을 알아냅니다.
  2. 취약성 확인: 해당 이름에 대한 CISA 경고를 검색하면 "버전 33 이하"에 대한 위험으로 CVE-2020-6998이 가리킬 수 있습니다.
  3. 세부 정보 확인: NVD(National Vulnerability Database)에서 특정 CPE(Common Platform Enumeration)가 일치하는지 확인하지만, "GuardLogix" 하위 유형을 포함할 수도 있고 포함하지 않을 수도 있는 "CompactLogix 5370 L3"에 대한 일반 항목만 찾습니다.

이러한 수동 "탐정 작업"은 종종 보안이 실패하는 지점입니다. AI 기반 CPS 라이브러리는 이 전체 프로세스를 자동화합니다. 내부 코드를 즉시 인식하고 상용 이름에 연결하며 특정 부품 및 펌웨어 버전을 식별하고 올바른 CVE를 확실한 정확도로 첨부하여 혼란스러운 문자열을 밀리초 내에 명확하고 안전한 설정으로 전환합니다.

결정론적 가시성으로 정체성 위기 해결

CPS 라이브러리는 단순한 데이터베이스가 아니라 "라스트 마일" 수정을 가능하게 하는 다중 에이전트 AI 시스템입니다. 업계 거대 기업과 협력하여 Claroty는 복잡한 네트워크 데이터를 단일 진실 공급원으로 조정하는 증거 그래프를 구축했습니다.

주요 혁신 사항:

  • 결정론적 추적성: 장치가 최소한의 데이터만 보고하더라도 라이브러리는 통계적 추론과 도메인 기반 논리를 사용하여 정확한 ID를 삼각 측량합니다.
  • 취약성 속성: 특정 하위 구성 요소와 펌웨어 트리를 식별함으로써 라이브러리는 취약성 식별의 정확도를 25% 향상시켰습니다.
  • 실행 가능한 통찰력: 초기 테스트에서 분석된 장치의 56%는 보안 팀에게 이전에는 보이지 않았던 오래된 펌웨어에 대한 새롭거나 업데이트된 보안 권장 사항을 받았습니다.

내부 살펴보기: Databricks 데이터 인텔리전스 엔진

1,700만 개 이상의 자산과 그 복잡한 종속성의 글로벌 카탈로그를 관리하기 위해 Claroty는 통합 백본으로 Databricks 데이터 인텔리전스 플랫폼을 활용합니다. Lakehouse 아키텍처를 채택함으로써 Claroty는 기존 데이터 사일로를 제거하여 독점 OT 프로토콜 및 API 호출부터 비정형 공급업체 PDF 설명서에 이르기까지 다양한 데이터 세트를 단일의 확장 가능한 환경으로 수집할 수 있습니다. 이 기반은 수백만 개의 데이터 포인트에 걸쳐 복잡한 통계 추론 모델을 실행하는 데 필요한 고성능 컴퓨팅을 제공하여 모든 CPS-ID(Claroty의 사이버 물리 시스템 ID에 대한 새로운 업계 표준)가 엄격한 데이터 무결성과 교차 사일로 인텔리전스로 뒷받침되도록 합니다.

대규모 데이터 엔지니어링: 메달리온 파이프라인

이 생태계를 구동하는 것은 Delta Lake에 구축되고 Unity Catalog에서 관리되는 강력한 메달리언 아키텍처입니다. 여정은 원시의 이기종 JSON 페이로드가 추가 전용 Delta 테이블에 캡처되는 Bronze 계층에서 시작됩니다. 거기에서 Delta 변경 데이터 피드(CDF)에서 읽는 승격 파이프라인을 통해 매핑 레지스트리를 동적으로 적용하여 원시 증거를 관리되는 표준 스키마로 변환합니다. Delta Lake의 스키마 진화 및 시간 여행을 활용하여 Claroty는 깨지지 않는 관리 체인을 유지합니다. 모든 자산 레코드는 원래 원시 아티팩트와 이를 분류한 특정 매핑 버전까지 추적할 수 있어 가장 민감한 산업 환경에서도 완전한 감사 가능성을 보장합니다.

Databricks의 사용자 지정 에이전트를 통한 다중 에이전트 인텔리전스

이 하이브리드 엔진의 가장 정교한 부분은 Databricks의 사용자 지정 에이전트 사용입니다. 단일 모놀리식 모델에 의존하는 대신 Claroty는 복잡한 신호를 해석하기 위해 협업하는 동기화된 네트워크인 오케스트레이션 다중 에이전트 시스템을 엔지니어링했습니다.

이러한 에이전트에 안정적인 컨텍스트를 제공하기 위해 독점 소스에서 수집된 구조화된 데이터의 클래식 통계 분석과 공급업체 문서, 기술 데이터 시트 및 공개 웹 소스의 노이즈에서 신호를 추출하는 고급 NLP 기술을 결합합니다. Databricks의 Unity Catalog는 이러한 다양한 데이터 세트를 통합하는 데 필요한 관리되는 데이터 기반을 제공하며, Spark 기반 파이프라인은 대규모로 정보를 처리하고 정규화합니다. 이러한 기능은 함께 분편화되고 일관성 없는 정보를 에이전트가 정확한 개체 해결 일치를 제공하는 데 필요한 정확하고 컨텍스트화된 답변으로 합성합니다.

시스템은 세 가지 핵심 구성 요소를 중심으로 구축됩니다.

  • NLP 에이전트: 표준 모델이 종종 놓치는 프로토콜에서 파생된 명명 문자열 및 모호한 소프트웨어 마커를 포함한 복잡한 혼합 형식 데이터를 구문 분석합니다.
  • 추론 에이전트: 신뢰도 점수 및 통계 테스트를 적용하여 증거의 가중치를 측정하고 데이터 무결성을 보장하기 위해 노이즈에서 높은 충실도 신호를 구별합니다.
  • 인간 루프(HITL): 전문가 검토를 위해 낮은 신뢰도 매핑을 플래그 지정하는 중요한 피드백 메커니즘입니다. 이러한 세션의 출력은 시스템에 다시 공급되어 모델을 재훈련하여 지속적인 정확도 향상을 보장합니다.

Databricks 기능을 통한 혁신

이 아키텍처의 성공은 에이전트 자체뿐만 아니라 이를 지원하는 Databricks 기반의 엔드투엔드 생태계에 있습니다. MVP에서 프로덕션까지 속도와 안정성으로 이동하기 위해 플랫폼의 전체 기능을 활용했습니다.

1. 모델 서빙을 통한 도메인별 인텔리전스 의료 및 OT의 미묘한 차이를 다루기 위해 일반 임베딩은 필요한 정밀도 수준에 충분하지 않았습니다. "범용 번역기"가 진정으로 성공하려면 일반 RAG 아키텍처가 도메인별 프레임워크로 발전해야 한다고 판단했습니다. 현재 Databricks 모델 서빙을 사용하여 최고 수준의 의료 임베딩 모델을 사용자 지정 엔드포인트로 배포하여 이 격차를 해소하고 있습니다. 그러나 미래를 내다볼 때, 당사 에이전트가 가장 모호한 산업 방언을 결정론적 정확도로 이해하도록 보장하기 위해 이러한 모델을 미세 조정하는 것이 다음 논리적 단계라고 봅니다.

2. 고급 RAG 및 정보 추출 지식 도우미를 활용하여 방대한 양의 독점 문서를 수집할 수 있는 강력한 RAG(검색 증강 생성) 시스템을 구축했습니다. 정보 추출 에이전트를 사용하여 비정형 독점 문서를 구조적으로 구문 분석하여 원시 텍스트를 CPS 라이브러리에 대한 실행 가능한 인텔리전스로 변환합니다.

3. MLflow를 통한 전체 수명 주기 관리 초기 MVP 단계부터 엄격한 평가 및 최종 배포에 이르기까지 ML 개발 수명 주기의 백본 역할을 하는 MLflow를 사용하여 모델을 관리했습니다.

  • 지속적인 평가: 수동 레이블링 세션과 함께 "LLM을 심판으로"를 사용하여 포괄적인 평가 전략을 구현했습니다. MLflow 기능을 통해 개념 드리프트를 방지하기 위해 모델 성능을 지속적으로 평가할 수 있었습니다.
  • 가시성 및 모니터링: 프로덕션에서는 MLflow의 가시성 기능을 활용하여 에이전트 상태를 실시간으로 모니터링합니다. 여기에는 토큰 사용량 및 인프라 비용 추적, 지연 시간 병목 현상 식별, 사용자에게 영향을 미치기 전에 잠재적인 버그 감지가 포함됩니다. 전략적 초점 영역 중 하나는 벡터 검색 인덱스의 비용 효율성입니다. 성능은 세계 최고 수준이지만, 벡터 엔드포인트에 대한 "scale-to-zero" 모델이 현재 부족하다는 점—특히 산업 보안 데이터의 버스티하고 이벤트 기반 특성과 관련이 있는 미묘한 차이—은 유휴 기간 동안 높은 ROI를 유지하기 위해 특정 아키텍처 패턴을 설계해야 합니다.

클래식 엔티티 해결 방법과 정교하고 조정된 다중 에이전트 전략을 Databricks의 강력한 인프라 지원과 결합하여 자체 개선되고 비용 효율적이며 매우 정확한 인텔리전스 계층을 만들었습니다. 이 시스템은 마침내 지저분한 네트워크 데이터와 단일 진실 공급원 간의 격차를 해소하여 CPS 보안의 ID 문제를 해결합니다.

Jobs, Pipelines 및 LLM을 사용한 자동화

다양한 소스의 방대한 정보를 처리하기 위해 Claroty는 Lakeflow Jobs를 사용하여 원시 데이터에서 잘 구조화된 테이블까지 전체 프로세스를 조정합니다.

당사의 파이프라인 중 하나는 CSAF(JSON 형식 보안 권고)를 테이블 형식 구조로 구문 분석하는 ETL 프로세스를 조정합니다. 이 프로세스에서 각 단계는 전용 델타 테이블에 항목을 읽고 씁니다.

이 ETL 및 더 많은 사용 사례에서 LLM을 사용하여 분류 작업 및 ai_query와 같은 Serving endpointsMLflow를 사용하여 LLM에서 얻은 답변을 평가하고 통계 메트릭 및 LLM-as-a-judge를 사용하며 비용을 모니터링하는 등 데이터를 강화합니다.

이 파이프라인을 대규모로 안정적으로 유지하기 위해 LLM을 심판으로 접근 방식을 사용하여 자체 LLM 출력의 품질을 지속적으로 평가합니다. 종종 실제 CPS 데이터에서 누락되거나 모호한 완전한 레이블이 지정된 정답에만 의존하는 대신, 전용 심판 모델이 다른 모델의 응답을 검토하여 허용 가능한지 여부를 결정하도록 합니다. 심판의 작업은 간단하고 보수적입니다. 각 결과를 통과(올바르게 보임), 실패(잘못 보임) 또는 알 수 없음(정보 부족)으로 표시합니다. 이러한 모든 심판은 Delta table에 저장됩니다. 이 방법을 사용하면 팀은 평가 샘플을 로드하고 사용자 지정 MLflow GenAI 심판을 시작하고 구조화된 평가를 실행할 수 있습니다. MLflow GenAI 모니터링 기본 기능은 맞춤형 평가 스택을 구축할 필요 없이 품질을 모니터링하고 버전을 비교하며 회귀를 포착하는 일관된 방법을 제공합니다.

Lakebase를 통한 트랜잭션 무결성

"Library"가 작동하려면 데이터가 일관되고 고가용성이어야 합니다. Claroty는 Databricks의 완전 관리형 트랜잭션 데이터 계층인 Lakebase를 통합합니다. Lakebase는 Postgres를 기반으로 하며 분석 처리를 위해 더 넓은 Lakehouse와의 원활한 연결을 유지하면서 실시간 쿼리에 필요한 낮은 지연 시간 성능을 제공합니다. 엄격한 제약 조건을 통해 데이터의 높은 품질을 유지하고 구성이 변경되어도 자산 매핑이 정확하게 유지되도록 합니다.

Unity Catalog

Databricks Apps를 통한 빠른 혁신

이러한 모든 인사이트를 통합하기 위해 Claroty는 Databricks 환경 내에서 완전한 스택의 데이터 집약적인 애플리케이션을 직접 구축하고 배포할 수 있는 기능인 Databricks Apps를 활용합니다. 최신 UI 프레임워크(React 또는 Streamlit 등)를 프런트엔드에 사용하고 트랜잭션 워크로드를 위해 Databricks의 완전 관리형 Postgres OLTP 데이터베이스인 Lakebase를 사용하여 애플리케이션 로직과 운영 데이터를 Lakehouse와 동일한 플랫폼에 호스팅할 수 있습니다. 이는 애플리케이션이 플랫폼의 기본 보안, 거버넌스 및 인증(Unity Catalog 및 OAuth를 통해)을 상속하는 동시에 별도의 앱 서버, 데이터베이스 및 배포 파이프라인의 필요성을 제거함을 의미합니다. 전통적으로 여러 기술 스택과 서비스를 연결해야 했던 것이 단일의 비용 효율적이고 강력한 솔루션으로 통합됩니다.

Databricks Apps를 통한 휴먼 인 더 루프

AI 파이프라인이 많은 작업을 자동화하지만, 현장에서 신뢰를 구축하는 데 가장 필요한 것은 휴먼 인 더 루프 SME 피드백입니다. Databricks App 및 Lakebase를 통해 투명한 보기와 원활한 "휴먼 인 더 루프" 피드백 주기를 활성화합니다. 이 직관적인 인터페이스를 통해 도메인 전문가는 분류를 검토하고, 엔티티를 수정 및 보강하며, 고품질의 검증된 데이터를 MLflow 파이프라인 및 R&D 마이그레이션에 다시 피드하여 시스템이 시간이 지남에 따라 더 똑똑하고 정확해지도록 보장할 수 있습니다.

Device Catalog

회복탄력성의 미래

Claroty의 OT 프로토콜에 대한 깊은 도메인 전문 지식과 Databricks 플랫폼의 강력한 기능을 결합함으로써 CPS 라이브러리는 새로운 표준을 설정하고 있습니다. 더 이상 장치가 존재한다는 것을 보는 것만이 아니라, 그것이 정확히 무엇인지, 어떤 위험을 가지고 있는지, 그리고 어떻게 총체적인 확신으로 그것을 수정할 수 있는지 아는 것이 중요합니다.

이 분야에서 Claroty의 리더십은 최근 2025 Gartner® Magic Quadrant™ for CPS Protection Platforms에서 "실행 능력" 최고 순위를 기록하며 리더로 선정됨으로써 검증되었습니다. 업계가 발전함에 따라 이러한 "ID 우선" 접근 방식은 모든 연결된 환경에서 회복탄력성을 발전시키는 기초가 될 것입니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.