주요 컨텐츠로 이동
고객

Genie와 AI 에이전트를 활용한 태양광 및 풍력 유지보수 보고서 혁신

Plenitude가 Databricks Genie 및 Agent Bricks를 활용하여 비정형 유지보수 PDF를 검색 가능한 데이터 레이어로 변환하고, 태양광 및 풍력 발전소 전반에 걸쳐 자연어 분석을 구현한 방법

작성자: Maria Vallarelli

  • Plenitude는 태양광 및 풍력 발전 유지보수를 위한 비정형 PDF를 쿼리 가능한 통합 데이터 모델로 변환하는 에이전트 기반 시스템을 Databricks Genie 위에 구축했습니다.
  • 이 솔루션은 Genie를 Unity Catalog 시맨틱 메타데이터 및 AI Functions와 결합하여 사용자가 자연어로 질문하고 여러 발전소와 기간에 걸친 시각화 자료를 생성할 수 있도록 지원합니다.
  • 초기 성과로는 더 빠른 다중 발전소 분석, 행 수준 보안이 적용된 거버넌스 기반의 셀프 서비스 액세스, 인버터와 같은 중요 자산에 대한 예측 유지보수의 기반 마련 등이 있습니다.

유지보수 PDF에서 AI 에이전트를 통해 실행 가능한 인사이트 도출하기

태양광 및 풍력 발전소의 운영 및 유지보수 공급업체는 보통 PDF 형식으로 보고서를 제공하며, 주요 정보는 자유 형식 텍스트, 표, 이미지 등에 분산되어 있습니다. 이 형식은 확인하기는 편하지만 확장성이 떨어집니다. 자산 수가 늘어남에 따라 팀에서 결함, 트렌드 또는 반복되는 문제를 파악하기 위해 각 문서를 수동으로 읽어야 하므로, 발전소 간 비교가 느려지고 일관성이 없어집니다.

Plenitude와 Databricks는 이러한 PDF 유지보수 보고서를 정형 데이터로 변환하는 에이전트 기반 시스템을 구축했습니다. 핵심 아이디어는 간단합니다. 문서를 데이터로 변환한 다음, AI 에이전트를 사용하여 해당 데이터에서 실행 가능한 인사이트를 도출하는 것입니다. 이제 사용자는 보고서를 일일이 찾아보는 대신 자연어로 질문하고, 시간 경과에 따른 트렌드를 분석하고, 발전소를 비교하고, 정형화된 출력 결과를 내보낼 수 있습니다.

PDF에서 데이터 분석으로의 전환을 위한 에이전트 기반 아키텍처

이 솔루션은 발전소 수준의 PDF 보고서를 이벤트 기반으로 수집하는 것부터 시작합니다. 새로운 보고서가 들어올 때마다 문서를 파싱하고 LLM 기반 추출을 적용하는 Databricks Job이 실행됩니다. 추출된 요소는 JSON으로 직렬화되어 Delta Lake에 저장되며, Delta Lake는 감사 및 재실행을 위해 전체 버전 기록을 유지합니다.

그림 1: 다중 발전소 분석을 위한 자동화된 Document Intelligence 아키텍처
그림 1: 다중 발전소 분석을 위한 자동화된 Document Intelligence 아키텍처

유지보수 정보가 거의 전적으로 비정형 PDF에 존재한다는 근본적인 문제를 해결하기 위해, Plenitude는 Databricks Document Intelligence AI 함수(특히 ai_parse_document)를 사용하여 각 페이지에서 텍스트 블록, 표, 그림, 메타데이터를 포함한 여러 유형의 요소를 추출합니다. 각 요소에는 발전소, 보고 기간, 페이지 번호, 콘텐츠 유형과 같은 속성이 추가되며, 모든 레코드는 추적성을 위해 원본 보고서로 바로 연결되는 링크를 유지합니다.

이러한 구조를 통해 다음과 같은 강력한 기능을 활용할 수 있습니다.

  • 시간, 카테고리, 지역별 필터링
  • 콘텐츠 유형 식별 및 공간 좌표 사용
  • 모든 인사이트를 원본 PDF로 역추적
  • 원본 문서를 변경하지 않고 BI 도구 및 디지털 에이전트와 통합

유지보수 보고서는 정적 파일에 머무르는 대신, 고급 분석 및 에이전트 추론이 가능한 지속적인 데이터 레이어가 됩니다.

Databricks에서의 데이터 처리: PDF에서 Delta Lake까지

이 아키텍처는 수집 및 파싱, 데이터 구조화, 에이전트 기반 상호작용의 세 가지 주요 레이어로 구성됩니다.

그림 2: 추출 - 쿼리 - 추론
그림 2: 추출 - 쿼리 - 추론

1단계: 파싱

ai_parse_document를 사용하여 파이프라인은 각 페이지에서 텍스트, 표, 메타데이터를 추출하고 이를 구조화된 JSON 개체로 직렬화합니다. 복잡한 표도 페이지 내 위치와 HTML 표현을 포함한 전체 컨텍스트와 함께 캡처됩니다.

2단계: 정규화 및 저장

시스템은 모든 페이지(page_id) 및 개체(id)에 대해 Delta Lake 테이블에 하나의 행을 생성합니다. 각 행에는 다음이 포함됩니다.

  • 추출된 JSON 콘텐츠
  • 페이지 및 개체 식별자
  • 페이지의 바운딩 박스를 나타내는 좌표(coords)
  • 콘텐츠 유형(예: 텍스트 또는 표)
  • 월, 연도, 파일 이름, 카테고리, 국가 등 가치가 높은 메타데이터

이 정규화된 모델은 PDF를 쿼리 가능한 통합 데이터 세트로 변환하여 투명하고 다른 소스와 쉽게 조인할 수 있도록 하는 동시에, 원본 문서로의 완전한 추적성을 유지합니다.

3단계: Genie 공간 및 에이전트 모드

이렇게 정제된 데이터 레이어 위에 Plenitude는 전용 Genie 공간을 구축한 다음, Genie의 에이전트 모드를 활용하여 데이터에 대한 Deep Research를 수행합니다. Genie는 구조화된 Delta Lake 테이블을 기본 컨텍스트로 사용하며, 사용자가 자연어를 사용하여 유지보수 데이터와 상호작용할 수 있도록 지원합니다.

사용자가 질문하면 Genie는 다음과 같은 작업을 수행합니다.

  • Unity Catalog의 시맨틱 메타데이터를 사용하여 사용 가능한 테이블과 컬럼을 식별합니다.
  • 상세한 컬럼 설명, 정제된 지식 저장소(knowledge store), SQL 샘플을 활용하여 쿼리 생성을 안내합니다.
  • 구조화된 레이어에 대해 SQL을 생성하고 실행합니다.
  • 답변, 시각화 및 선택적으로 내보낼 수 있는 결과를 반환합니다.
그림 3: Genie: 질문에서 시각화까지
그림 3: Genie: 질문에서 시각화까지

이러한 설계를 통해 Genie는 유지보수 데이터의 비즈니스 시맨틱과 기본 구조를 모두 이해할 수 있으므로 정확하고 컨텍스트를 인식하는 답변을 제공합니다.

그림 4: Genie 도구 흐름 및 실행 파이프라인
그림 4: Genie 도구 흐름 및 실행 파이프라인

Genie에게 메타데이터와 지침이 중요한 이유

복잡한 PDF 파생 데이터 세트에서 신뢰할 수 있는 결과를 얻으려면 컨텍스트만으로는 충분하지 않습니다. Plenitude는 풍부한 메타데이터와 Genie 공간에 대한 명시적인 지침이라는 두 가지 디자인 패턴이 매우 중요하다는 것을 발견했습니다.

에이전트와의 계약 역할을 하는 메타데이터

잘 정의된 테이블 및 컬럼 설명은 Genie에게 각 필드의 의미와 사용 방법을 알려줍니다. 예를 들어, page_id는 원본 보고서의 소스 페이지를 식별하고, type은 요소가 텍스트인지 표인지 나타내며, coords는 공간 위치를 인코딩하고, content에는 추출된 텍스트 또는 표 표현이 포함됩니다. 이 메타데이터는 원시 JSON을 Genie가 추론할 수 있는 이해하기 쉬운 지식으로 변환합니다.

운영의 기반이 되는 일반 지침

데이터가 분산되어 있거나 여러 페이지에 걸쳐 있는 경우, Genie 공간의 로컬 지식 저장소(knowledge store)에 추가된 도메인별 지침이 필수적입니다. Plenitude는 다중 페이지 표 처리, HTML 아티팩트 무시, 헤더 행 제외, 발전소별 필터 적용에 대한 규칙을 인코딩합니다.

실제 사례를 들어보겠습니다. 전체 메타데이터가 있더라도 Genie가 YTD 컬럼을 합산하거나 누락된 월을 무시하면 잘못된 분기별 합계를 계산할 수 있습니다. 팀에서는 “YTD 필드는 절대 사용하지 말고 월별 컬럼만 사용하세요”, “합산하기 전에 필요한 모든 월이 존재하는지 확인하세요”와 같은 명확한 지침을 추가하여 일관된 결과를 보장하는 운영 가이드라인을 Genie에 제공합니다.

이러한 Genie 공간 전용 지침은 Unity Catalog의 메타데이터와 결합되어 Genie가 데이터를 올바르게 해석할 수 있도록 적절한 논리를 적용하는 데 도움이 됩니다.

확장 가능한 에이전트 워크플로우를 위한 Genie 및 Agent Bricks 활용

Genie는 구조화된 유지보수 레이어 위에서 강력한 연구 에이전트 경험을 제공하지만, Plenitude는 늘어나는 사용 사례를 지원하기 위해 반복 가능한 워크플로우와 오케스트레이션도 필요합니다. Agent Bricks는 이러한 진화의 다음 단계입니다.

Agent Bricks를 통해 Plenitude는 'LLM과 프롬프트' 패턴에서 벗어나 유지보수 분석가와 엔지니어를 대신하여 일련의 작업을 실행하는 에이전트 워크플로우로 전환할 수 있습니다. Genie를 구동하는 것과 동일하게 정제된 Delta Lake 테이블, 메타데이터, 지침을 Agent Bricks로 구축된 Supervisor 스타일 에이전트에서 재사용하여 다음과 같은 작업을 수행할 수 있습니다.

  • 복잡한 질문을 더 작은 분석 작업으로 분해합니다.
  • Genie 도구 흐름을 호출하여 SQL을 생성하고 실행합니다.
  • 보고서 생성 또는 알림 생성과 같은 후속 작업을 트리거합니다.

이전에는 프롬프트, 도구, 검증 로직을 수동으로 연결해야 했던 작업을 이제 데이터를 관리하는 동일한 Databricks 플랫폼의 Agent Bricks에서 중앙 집중식으로 처리할 수 있습니다.

자동 리퀴드 클러스터링을 통한 성능 최적화

에이전트 기반 쿼리는 탐색적이고 동적이기 때문에 기존의 Z-ORDER 기반 튜닝이 항상 이상적인 것은 아닙니다. 플레니튜드(Plenitude)는 새로운 보고서, 사용자, 질문이 나타남에 따라 액세스 패턴이 변화하므로 수동 클러스터링을 유지 관리하기가 어렵다는 점을 발견했습니다.

반면, 자동 리퀴드 클러스터링은 테이블이 실제로 어떻게 사용되는지 학습하고 이에 따라 레이아웃을 조정합니다. 이를 통해 사전 인덱스 설계와 지속적인 튜닝의 필요성이 줄어들며, 이는 특히 개념 검증(POC) 및 초기 서비스 개시(go-live) 단계에서 중요합니다. 이러한 맥락에서 자동 클러스터링은 Delta 테이블의 에이전트 및 LLM 기반 워크로드에 가장 적합한 선택입니다.

Genie Room의 데이터 액세스 보안 확보

유지보수 데이터에는 국가 또는 지역별 액세스 요구사항이 있는 경우가 많습니다. 이러한 규칙을 일관되게 적용하기 위해 플레니튜드는 Unity Catalog 및 테이블과 결합하여 행 수준 보안을 사용합니다.

Unity Catalog 함수는 현재 사용자가 액세스할 수 있는 국가를 결정하고, 전체 권한이 있는 경우 목록 또는 키워드 ALL을 반환합니다. 그런 다음 테이블은 해당 함수를 기반으로 행을 필터링하므로 각 사용자는 권한이 있는 국가의 데이터만 볼 수 있습니다.

사용자가 Genie Room을 통해 상호작용할 때 모든 쿼리는 필터링된 테이블에서 실행되므로 행 수준 보안이 자동으로 적용됩니다. 즉, 사용자는 자연어로 질문할 수 있지만, 볼 수 있도록 허용된 데이터의 결과만 받게 됩니다. 동일한 데이터 세트가 Genie, 에이전트 및 BI 도구에 사용되는 동시에, 보기 권한은 사용자별로 조정됩니다.

향후 개선 사항: 예측 유지보수를 향하여

유지보수 보고서에는 미해결 인시던트 및 결함 세부 정보가 포함되어 있으므로, 구조화된 데이터 모델은 예측 유지보수를 위한 강력한 기반이 됩니다. 인버터가 좋은 예입니다. 고장이 발생하면 장치당 수 메가와트시(MWh)의 손실이 발생할 수 있으며, 반복되는 문제는 유지보수 노트에 가장 먼저 나타나는 경우가 많습니다.

시간에 따른 결함 패턴을 분석함으로써 플레니튜드는 다음과 같은 작업을 수행할 수 있습니다.

  • 잠재적인 기록 문제 식별
  • 조기 경보 신호 감지
  • 더 심층적인 조사가 필요한 발전소의 우선순위 지정
  • 더 높은 품질의 인시던트 이력을 예측 모델에 제공

에이전트 기반 시스템은 이러한 신호를 쉽게 접근할 수 있는 분석, 트렌드 및 시각화 자료로 변환하여 팀이 단순히 문제에 사후 대응하는 대신 사전에 예측할 수 있도록 지원합니다.

주요 이점 및 기능

이전 방식에서는 분석이 보고서를 개별적으로 읽는 것에 국한되어 이력 트렌드를 구축하거나, 발전소를 비교하거나, 구조화된 결과를 생성하기가 어려웠습니다. 차트를 만들고, 결과를 내보내고, 여러 보고서의 인사이트를 결합하는 작업은 기껏해야 수동으로 진행되었으며 아예 불가능한 경우도 많았습니다.

Databricks의 Genie 에이전트 모드와 에이전트 친화적인 데이터 모델을 통해 플레니튜드는 다음과 같은 작업을 수행할 수 있습니다.

  • 시간 경과 및 발전소 전반에 걸친 유지보수 데이터 탐색
  • 시각화 생성 및 PDF 출력을 포함한 결과 내보내기
  • 초기 신호 및 반복 패턴 감지
  • 수동 작업의 증가 없이 분석 규모 확장

구조화된 데이터, 비즈니스 메타데이터, AI 추론을 결합함으로써 이 시스템은 단순한 사후 보고를 넘어 문제의 조기 감지 및 예측을 지원하는 분석, 트렌드, 시각화 자료를 생성합니다.

Databricks GenieAgent Bricks에 대해 자세히 알아보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.