주요 컨텐츠로 이동
솔루션

통신 분야의 AI 준비 상태

데이터와 지능의 격차 해소

작성자: Stephen Hage, Keerthi Josyula , Michael Zhang

  • 통신사 AI 역설: 통신사 임원의 97%가 AI를 도입하지만, 모델 품질 부족이 아닌 "데이터 부채"—파편화되고, 거버넌스가 없으며, 의미론적으로 불투명한 데이터—로 인해 프로덕션 규모로 확장되기 전에 이니셔티브가 중단됩니다. AI 에이전트는 대학원 수준의 물리학은 능숙하게 처리할 수 있지만, 운영 컨텍스트에서 "site" 또는 "CDR"과 같은 산업별 용어를 이해하는 데는 여전히 실패할 수 있습니다.
  • 시맨틱 브릿지: 해결책은 Databricks Unity Catalog를 신뢰할 수 있는 단일 진실 공급원으로 구축하는 것입니다. 이는 Lakehouse 위에 통합된 시맨틱 계층을 구현하고, Lakehouse Federation을 통해 분산된 시스템을 통합하며, AI 에이전트가 "인상적인 데모"에서 신뢰할 수 있는 프로덕션으로 전환하는 데 필요한 풍부한 컨텍스트(Metric Views, 계보, 비즈니스 용어집)를 제공합니다.
  • 거버넌스를 촉매제로: 이 통합된 메타데이터 계층은 Attribute-Based Access Control(ABAC) 및 동적 마스킹을 사용하여 원시 데이터에서 AI 출력까지 일관된 엔드투엔드 거버넌스를 가능하게 합니다. 이는 엄격한 CPNI, GDPR 및 CALEA 규정을 준수하고 AI 에이전트가 복잡한 운영 작업을 정확하게 수행하도록 보장하는 데 중요합니다.

통신사의 AI 도입 과제

NVIDIA의 2025년 통신 산업 AI 현황 보고서에 따르면, 통신사 임원의 97%가 고객 경험 향상, 네트워크 운영 개선 및 비용 절감을 위해 AI를 평가하거나 도입하고 있습니다. 많은 기업이 파일럿 단계를 넘어 긍정적인 ROI를 창출하고 있습니다. 하지만 AI의 잠재력은 여전히 실제 성과를 앞서고 있습니다.

역설적으로, 통신사는 그 어느 때보다 많은 데이터를 보유하고 있지만, AI 이니셔티브는 프로덕션 규모에 도달하기 전에 일관되게 중단됩니다. 모바일 기술은 3G에서 4G, 5G를 넘어 진화합니다. 광대역 혁신은 기존 광섬유에서 더 많은 처리량을 짜냅니다. MVNO는 용량을 재판매하고, 타워 회사는 수천 개의 사이트를 조정하며, 지역 통신사는 레거시 인프라를 현대화합니다. 이 모든 과정에서 데이터 볼륨은 기하급수적으로 증가하지만, 이러한 노력은 약속을 지키지 못하고 있습니다.

왜 그럴까요? 파운데이션 모델이 인류의 마지막 시험을 통과하는 것으로 헤드라인을 장식하지만, 귀사의 비즈니스는 고객 이탈 예측, 메시지 개인화, 네트워크 장애의 근본 원인 분석 지원, 그리고 수천 가지의 운영 과제를 해결해야 합니다. 대학원 수준의 물리학을 만점 받은 모델이라도 귀사의 운영 맥락에서 "사이트", "타워", "CDR"이 무엇을 의미하는지 이해하는 데는 완전히 실패할 수 있습니다.

병목 현상은 모델 품질, 칩 접근성 또는 처리 능력이 아닙니다. 세계경제포럼(World Economic Forum)의 AI 거버넌스 얼라이언스(World Economic Forum's AI Governance Alliance)에 따르면, AI를 대규모로 구현하는 데 가장 큰 단일 과제는 "깨끗하고 품질이 좋으며 사용 가능한 데이터"의 부족이며, 이는 신뢰할 수 없는 품질, 접근성 및 유효성으로 인해 악화됩니다. 그들은 이를 데이터 부채라고 부릅니다. 즉, 파편화되거나, 거버넌스가 없거나, 의미론적으로 불분명하여 가치를 창출할 수 없는 방대한 데이터 풀을 나타내는 기술 부채의 보이지 않는 쌍둥이입니다.

불편한 진실은 이것입니다. 귀하의 조직이 자체 데이터 환경을 효율적으로 탐색할 수 없다면, 분석가가 권위 있는 소스를 찾거나 상충되는 정의를 조정하는 데 며칠을 소비한다면, AI 에이전트도 동일한 마찰을 상속받게 될 것입니다. AI는 조직의 복잡성을 마법처럼 우회하는 것이 아니라, 이미 존재하는 구조(또는 구조의 부족)를 증폭시킵니다.

파운데이션 모델은 귀사의 비즈니스를 차별화하지 않습니다. 칩이나 도구도 마찬가지입니다. 귀사의 엔터프라이즈 데이터와 그 주변의 맥락이 경쟁 우위를 창출합니다. 플랫폼은 귀사가 해당 데이터를 효과적으로 사용하는 데 도움을 주기 위해 존재합니다. 데이터 및 관련 의미론에 대한 통합된 액세스는 AI 준비 상태로 가는 격차를 해소합니다.

데이터 준비 격차를 의미론적 계층으로 해소

대부분의 통신사는 오늘날 레이크하우스를 배포했지만, 특히 네트워크 텔레메트리 로그, 서비스 티켓 또는 PDF 계약과 같은 비정형 콘텐츠를 포함한 방대한 데이터의 대부분을 활용하지 못할 수 있습니다. 이것이 부분적인 AI 성공과 지속적인 어려움 모두를 설명합니다.

CSV 파일을 채팅 인터페이스에 업로드하면 피상적인 질문에 얼마나 빨리 답하는지 볼 수 있습니다. 복잡한 질문을 하거나 수년간 축적된 기술 부채를 탐색하려고 하면 그 인상은 무너집니다. 데이터 위에 잘 만들어진 의미론적 계층은 "인상적인 데모"와 "프로덕션 AI" 사이의 격차를 해소합니다.

이 의미론적 계층에는 세 가지 핵심 통합이 필요합니다.

1. 분산된 데이터셋 및 해당 의미론 통합

데이터는 Amdocs, Oracle, Teradata, Snowflake, Salesforce, ServiceNow 등 수십 개의 시스템에 분산되어 있습니다. 각 시스템은 자체 스키마 규칙, 명명 패턴 및 비즈니스 로직을 사용합니다. 이러한 소스를 연합하고 조화시키는 메타 계층이 없으면 AI 에이전트는 어떤 시스템의 "customer_id"가 실제로 동일한 고객을 나타내는지에 대해 추측합니다. 이러한 추측은 지원 티켓을 잘못된 계정으로 라우팅하거나 고객이 이미 구매한 제품을 추천할 때 프로덕션에서 실패합니다.

2. 데이터에서 AI 프로세스까지 일관된 거버넌스 보장

통신 분야의 AI 에이전트에 대한 Google의 2025년 연구에 따르면, 통신사 임원의 35%가 LLM 제공업체를 선택할 때 데이터 개인 정보 보호 및 보안을 최우선 고려 사항으로 꼽습니다. GDPR, CMMC 및 CUI 데이터 처리와 같은 규제 요구 사항과 통신사별 의무를 고려할 때 이는 타당합니다. CPNI 규칙은 통신사가 통화 기록 및 위치 데이터를 보호하는 방법을 규제하며, CALEA는 통신사가 무단 액세스로부터 네트워크를 보호하도록 요구합니다.

분석 마비의 가장 큰 원인은 종종 보안 요구 사항에 대한 불확실성에서 비롯됩니다. 관리 기록, 계약, 고객 데이터, 허가 문서 및 네트워크 구성은 각각 제로 트러스트 인증부터 도메인 간 분석 투명성에 이르기까지 다른 규정 준수 기준을 가지고 있습니다. 서로 다른 부서 및 도구에 분산된 거버넌스는 규정 준수가 중단되고 프로젝트가 중단되는 격차를 만듭니다. 고객 데이터를 기반으로 학습된 AI 에이전트는 다섯 개의 다른 백엔드 시스템을 쿼리하더라도 지원 담당자에게 정보를 표시할 때 CPNI 마스킹 규칙을 존중해야 합니다.

3. 카탈로깅 및 의미론 통합

세계경제포럼은 "AI 모델의 성공은 여러 소스의 데이터를 수집, 상관 분석 및 분석할 수 있는 강력한 데이터 기반에 달려 있으며, 다양한 사용 사례에 대한 통합되고 분산된 액세스를 가능하게 합니다."라고 언급합니다. 이 기반은 메타데이터, 계보, 비즈니스 정의 및 사용 패턴을 포함합니다. AI 에이전트가 귀하의 데이터를 쿼리할 때, "network_performance"라는 세 개의 테이블 중 어떤 것이 권위 있는지 알고 있습니까? "FTTH"와 "fiber to the home"이 동일한 개념을 나타낸다는 것을 이해합니까? 추천을 하기 전에 데이터 품질과 최신 상태를 결정할 수 있습니까?

이것은 가상의 질문이 아닙니다. 이것이 AI 프로젝트가 프로덕션에서 실패하는 이유를 설명합니다.

Unity Catalog를 통합 솔루션으로

Databricks Unity Catalog는 전체 레이크하우스에 걸쳐 통합된 거버넌스 및 메타데이터 계층을 제공하여 이러한 과제를 해결합니다. 그러나 기술만으로는 조직 문제를 해결할 수 없습니다. 실행에는 데이터, 배포 및 거버넌스에 대한 명확한 아키텍처 표준과 Unity Catalog가 조직의 진실 공급원 역할을 한다는 권위 있는 명령이 필요합니다.

A. 분산 시스템 통합

귀하의 데이터는 온프레미스 시스템, Snowflake와 같은 클라우드 플랫폼, 다양한 SaaS 도구 및 여러 Databricks 작업 공간에 흩어져 있습니다. Unity Catalog는 다양한 시나리오에 적합한 여러 통합 패턴을 통해 레이크하우스 아키텍처를 지원합니다.

  • Delta Sharing: 복제 없이 조직 및 클라우드 간 데이터 교환
  • Lakeflow Connectors: 최신 상태를 유지하며 엔터프라이즈 시스템에서 관리형 수집
  • Lakehouse Federation: 데이터를 이동하지 않고 외부 시스템에서 직접 쿼리

Delta Sharing은 복제 비용을 없애고 조직 및 플랫폼 간에 안전한 제로 복사 데이터 공유를 가능하게 합니다. 수신자는 클라우드 스토리지의 동일한 기본 데이터 파일을 쿼리합니다. Salesforce Data Cloud 및 SAP와의 기본 통합은 이 패턴을 CRM 및 ERP 데이터로 확장합니다.

Lakeflow Connectors는 엔터프라이즈 시스템에서 관리형 수집을 제공하여 최신 상태를 유지하면서 계보를 보존합니다. 이 접근 방식은 자주 쿼리되는 데이터셋의 경우 스토리지 및 액세스 패턴을 최적화하여 순수 연합보다 뛰어난 성능을 발휘합니다.

Lakehouse Federation은 연결을 사용하여 모든 것을 복제하지 않고 외부 시스템의 데이터를 Databricks로 직접 읽고 조인합니다. 귀사의 AI 에이전트는 단일 워크플로에서 Oracle 청구 테이블, Snowflake 분석 및 Databricks 레이크하우스를 쿼리할 수 있습니다.

이 아키텍처는 AI 에이전트가 적절한 집계 수준에서 데이터에 액세스하도록 보장합니다. 청구 분쟁 에이전트가 고객 불만을 조사할 때, 초당 수백만 건의 이벤트가 발생하는 원시 텔레메트리 로그를 스캔하는 대신, 검증되고 중복 제거되었으며 고객 컨텍스트로 보강된 Gold 계층 요약을 쿼리합니다. 이는 관련 없는 세부 정보로 에이전트를 압도하여 발생하는 환각을 방지합니다.

B. 파일 형식 상호 운용성

과거에는 Delta Lake와 Apache Iceberg 간의 마찰이 조직적 분열을 야기했으며, 다른 팀이 다른 형식에 표준화되었습니다. 이는 쉽게 상호 작용할 수 없는 데이터 섬을 만들었지만, 형식 선택이 실제 장애물은 아닙니다. 무엇을 해야 하는지 파악하고 누가 주요 작업을 수행할지 결정하는 것이 훨씬 더 중요합니다.

Unity Catalog는 Delta 및 Iceberg 형식 모두에 대해 일급 지원을 제공합니다. 단일 인터페이스를 통해 두 형식으로 읽고 쓸 수 있습니다. 기존 Iceberg 테이블은 동일한 카탈로그에서 새로운 Delta 테이블과 공존하며, 동일한 AI 에이전트가 쿼리하고 동일한 정책으로 관리됩니다. 두 형식이 통합 거버넌스 계층에서 동등하게 참여할 때 형식 논쟁은 사라집니다.

Unity Catalog은 테이블 형식 외에도 포괄적인 테이블 및 열 설명을 유지 관리합니다. 이는 구조화된 테이블과 마찬가지로 PDF, 로그, 원격 분석 스트림, 이미지 및 오디오 파일에 동일한 태깅 및 정책 적용을 제공하는 Volumes의 비정형 데이터를 관리합니다. 이를 통해 AI 에이전트는 구조화된 테이블과 비정형 컨텍스트를 일관된 방식으로 검색할 수 있습니다.

C. 구성, 검색 용이성 및 보안

Unity Catalog는 전체 레이크하우스에 걸쳐 통합된 거버넌스를 제공합니다. 테이블 및 열 설명은 두 가지 목적을 수행합니다. 분석가가 데이터를 찾고 이해하는 데 도움이 되며 AI 시스템에 의미론적 컨텍스트를 제공하여 올바른 테이블을 선택하고 열 의미를 해석하며 올바른 변환을 적용합니다. 풍부한 설명이 없으면 "cust_id"가 시스템 전체에서 "customer_identifier"와 일치하는지 추측하는 AI 에이전트는 다운스트림에서 누적되는 실수를 하게 됩니다.

주요 거버넌스 기능은 다음과 같습니다.

pii=true, region=EU 또는 data_owner=finance와 같은 태그를 기반으로 동적 행 및 열 필터링을 적용하는 속성 기반 액세스 제어(ABAC)입니다. 이러한 정책은 에이전트 프롬프트를 바인딩하고 계획 결정을 제한하는 민감도 및 거주 규칙을 인코딩합니다.

작업 영역 바인딩은 환경 의미(dev/stage/prod)를 반영하면서 에셋을 복제하지 않고 특정 카탈로그에 액세스할 수 있는 작업 영역을 제한합니다. 이는 에이전트 실행 컨텍스트를 제어하고 환경 간 누출을 방지합니다.

동적 마스킹은 사용자 역할에 따라 동일한 데이터에 대한 다른 보기를 표시합니다. 지원 에이전트는 마스킹된 주민등록번호 및 신용카드 세부 정보를 보고, 규정 준수 팀은 전체 값을 보고, AI 에이전트는 호출한 사용자의 권한을 상속합니다.

정보 스키마는 권한 인식 메타데이터를 제공하여 에이전트가 런타임에 허용된 에셋을 안전하게 열거하고 동적으로 컨텍스트를 빌드할 수 있도록 합니다.

시스템 테이블을 통한 감사 로깅은 GDPR, CMMC, CPNI 및 CALEA 규정을 준수하기 위해 모든 쿼리, 모든 데이터 액세스, 모든 모델 추론을 추적합니다.

D. AI 성능을 위한 의미론적 컨텍스트

Unity Catalog가 AI 성능을 변화시키는 부분입니다. 포괄적인 메타데이터(태그, 설명, 스키마, 계보 그래프, 사용 패턴 및 표준 KPI를 정의하는 Metric Views)를 통해 풍부한 의미론적 컨텍스트를 제공합니다.

Metric Views는 특히 중요합니다. NOC가 네트워크 가용성을 90%로 보고하고 경영진 보고서에 85%가 표시될 때 이사회는 어떤 숫자가 맞는지 묻습니다. 답은 종종 다른 계산 방법론, 다른 시간 창, "가용성"의 다른 정의, 계획된 유지 관리에서 다른 제외 규칙을 포함합니다. Metric Views는 1급 비즈니스 메트릭, 차원 및 측정을 선언합니다. 모두 Unity Catalog에서 관리되므로 모든 사람이 동일한 계산을 참조합니다. "매출", "ARPU" 또는 "활성 사용자"를 쿼리하는 에이전트는 팀마다 다를 수 있는 로직을 다시 파생하는 대신 권한 있는 정의를 검색합니다.

Genie space, 즉 Databricks의 자연어 쿼리 인터페이스에 "지역별 평균 FTTH 배포 비용은 얼마입니까?"와 같은 질문을 하면 AI는 단순한 키워드 일치를 넘어섭니다. 다음을 이해합니다.

  • 재무 시스템에서 분석 집계까지 계보를 통해 추적된 권한 있는 비용 데이터를 포함하는 테이블
  • 의미론적 태그와 비즈니스 용어집에 인코딩된 "FTTH"와 "fiber to the home"이 동일한 개념을 나타낸다는 것
  • 재무팀이 사용하는 지역 정의와 운영팀이 사용하는 지역 정의
  • 질문하는 데 충분히 최신 데이터인지 여부

NVIDIA의 연구에 따르면 통신 응답자의 39%가 생성형 AI 모델을 추론할 때 결과의 정확성을 가장 중요한 요소로 꼽습니다. Unity Catalog의 의미론적 계층은 AI에 특정 비즈니스 도메인 내에서 정확한 답변을 제공하는 데 필요한 컨텍스트를 제공하여 이를 직접적으로 해결합니다.

이는 질문에 답하는 것뿐만 아니라 작업을 수행하는 에이전트에게 특히 중요합니다. TM Forum의 레벨 5 자율 네트워크를 목표로 하는 모든 회사의 경우 에이전트는 신뢰할 수 있어야 합니다. 이를 위해서는 통제, 가드레일, 평가 및 SME 감독이 필요합니다. 이 모든 것은 에이전트가 "어떤 데이터가 존재하는지"뿐만 아니라 "이 데이터가 우리 비즈니스 컨텍스트에서 무엇을 의미하는지"를 이해하는 데 달려 있습니다.

예를 들어 혼잡을 줄이기 위해 트래픽을 이동하도록 권장하는 네트워크 최적화 에이전트를 생각해 보세요. 의미론적 이해 없이는 처리량을 개선하지만 기업 고객에 대한 SLA 약정을 위반하는 구성 변경을 제안할 수 있습니다. Unity Catalog 메타데이터를 사용하면 에이전트는 프리미엄 SLA가 있는 회선, 성능 저하를 허용할 수 있는 고객 세그먼트, 중요 인프라에 공급하는 네트워크 세그먼트를 알 수 있습니다.

결론

AI 채택은 비즈니스 기능을 다른 팀, 다운스트림 시스템 및 대신 작업해야 하는 AI 에이전트에게 전달할 수 있는 작동 가능하고 실행 가능한 언어로 번역하는 것을 의미합니다.

AI를 작동시키기 위해 더 강력한 기본 모델이 필요하지 않습니다. 데이터가 AI 준비 상태여야 합니다.

  • 분산되고 사일로화된 시스템에 흩어져 있을 수 있는 데이터에 대한 통합 액세스입니다.
  • 원시 데이터부터 AI 출력까지 일관된 거버넌스입니다.
  • 인간뿐만 아니라 AI 에이전트에게도 정보를 제공하는 일관된 의미론입니다.

Unity Catalog는 파편화되고 불투명한 데이터를 AI 준비 플랫폼으로 변환하는 메타데이터 및 거버넌스 기반을 제공합니다. AI를 채택하지만 데이터 품질에 어려움을 겪는 대부분의 통신 분야에서 승리 전략은 최고의 모델을 갖는 것이 아닙니다. 최고의 데이터 기반과 이를 사용하려는 조직적 의지를 갖는 것입니다. AI 준비 데이터 기반으로 가는 경로를 오늘 정의하여 AI 로드맵을 가속화하세요. Databricks와 협력하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.