주요 컨텐츠로 이동

도메인 인텔리전스의 승리: 프로덕션 AI에서 '고품질'의 실제 의미

안정성, 컨텍스트, 거버넌스가 엔터프라이즈 AI 에이전트의 핵심인 이유

Domain Intelligence Wins: What “High-Quality” Actually Means in Production AI

발행일: February 12, 2026

데이터 전략Less than a minute

Summary

  • 고품질 에이전틱 AI는 시스템 신뢰성으로 정의됩니다. 프로덕션 환경에서 품질은 에이전트가 다단계 워크플로 전반에 걸쳐 데이터, 도구, 컨텍스트를 어떻게 사용하느냐에 따라 달라집니다.
  • 도메인 특화 에이전트는 엔터프라이즈 환경에서 일반 AI보다 뛰어난 성능을 보입니다. 조직은 범위를 제한하고 에이전트를 비즈니스 컨텍스트에 기반하게 함으로써 환각(hallucination)을 줄이고 신뢰도를 높입니다.
  • 에이전틱 AI를 실제 가치로 전환하려면 경영진들은 통합된 데이터 기반, 명확한 소유권, 프로덕션 준비가 된 엔지니어링을 우선시해야 합니다.

기업들이 생성형 AI 실험에서 프로덕션에 에이전트 시스템을 배포하는 단계로 넘어가면서 논의의 초점이 바뀌고 있습니다. 이제 경영진이 던지는 질문은 더 이상 '이 모델은 추론할 수 있는가?' 가 아니라 '이 시스템을 신뢰할 수 있는가?'입니다.

이러한 변화가 실제로 무엇을 의미하는지 알아보기 위해 Databricks EMEA의 최고 AI 책임자(Chief AI Officer)인 Maria Zervou와 이야기를 나누었습니다. Maria는 규제가 심하고 빠르게 변화하는 산업 전반의 고객과 긴밀히 협력하며 AI 아키텍처, 거버넌스, 실제 실행의 교차점에서 시간을 보냅니다.

대화 내내 Maria는 에이전틱 AI의 성공은 모델에 달려 있는 것이 아니라는 점을 계속해서 강조했습니다. 데이터, 엔지니어링 원칙, 명확한 책임 소재와 같이 이를 둘러싼 시스템에 관한 것입니다.

캐서린 브라운: 제가 이야기하는 많은 경영진은 여전히 AI 품질을 모델이 얼마나 인상적인지와 동일시합니다. 그것이 잘못된 프레임이라고 주장하셨죠. 왜 그럴까요?

Maria Zervou: 제가 본 가장 큰 오해는 사람들이 모델의 영리함이나 인지된 추론 능력을 품질과 혼동한다는 것입니다. 이 둘은 같은 것이 아닙니다.

품질, 특히 에이전트 시스템에서의 품질은 신뢰성을 복합적으로 쌓아가는 것을 의미합니다. 더 이상 단일 응답을 평가하는 것이 아닙니다. 여러분은 데이터 검색, 도구 호출, 의사 결정, 문제 에스컬레이션 등 수백 개의 단계를 거칠 수 있는 시스템을 평가하고 있습니다. 작은 오류라도 예측할 수 없는 방식으로 복합적으로 작용할 수 있습니다.

따라서 질문도 달라집니다. 에이전트가 올바른 데이터를 사용했나요? 적절한 리소스를 찾았나요? 언제 중단하거나 에스컬레이션해야 하는지 알았나요? 바로 여기에 품질의 핵심이 있습니다.

그리고 중요하게도, 품질은 다양한 이해관계자에게 각기 다른 것을 의미합니다. 기술팀은 종종 비용, 지연 시간, 처리량과 같은 KPI에 중점을 둡니다. 최종 사용자는 브랜드 규정 준수, 어조, 법적 제약에 관심을 갖습니다. 따라서 이러한 관점이 일치하지 않으면 결국 잘못된 것을 최적화하게 됩니다.

Catherine: 흥미로운 점이네요. 특히 많은 리더가 AI 시스템이 사용 가능하려면, 특히 규제가 심한 환경에서는 '완벽'해야 한다고 가정하기 때문입니다. 규제가 심한 산업의 기업들은 AI 이니셔티브에 어떻게 접근해야 할까요?

Maria: 규제가 심한 분야에서는 매우 높은 정확도가 필요하지만, 첫 번째 벤치마크는 인간의 수행 능력이 되어야 합니다. 오늘날 인간은 항상 실수를 합니다. 기대를 현실에 기반을 두지 않으면 결코 앞으로 나아갈 수 없습니다.

더 중요한 것은 추적 가능성과 책임성입니다. 문제가 발생했을 때 왜 그런 결정이 내려졌는지 추적할 수 있나요? 결과에 대한 책임은 누가 지나요? 어떤 데이터가 사용되었나요? 이러한 질문에 답할 수 없다면, 출력이 아무리 인상적으로 보이더라도 시스템은 프로덕션에 사용할 준비가 되지 않은 것입니다.

Catherine: 도메인 특화 에이전트와 범용 모델에 대해 많이 이야기하셨습니다. 경영진은 그 차이점에 대해 어떻게 생각해야 할까요?

Maria: 범용 모델은 본질적으로 매우 크고 다양한 데이터세트로 학습된 아주 유능한 추론 엔진입니다. 하지만 비즈니스를 이해하지는 못합니다. 도메인별 에이전트는 동일한 기본 모델을 사용하지만 컨텍스트를 통해 더 강력해집니다. 미리 정의된 사용 사례로 한정합니다. 검색할 수 있는 공간을 제한합니다. 귀사의 KPI가 무엇을 의미하는지, 귀사 의 용어가 무엇을 의미하는지, 어떤 작업을 수행할 수 있는지를 가르칩니다.

바로 그 제약이 사실상 시스템을 더 좋게 만듭니다. 도메인을 좁힘으로써 환각을 줄이고 출력의 신뢰도를 높일 수 있습니다. 가치의 대부분은 모델 자체에서 나오는 것이 아닙니다. 가치는 안전하게 액세스할 수 있는 독점 데이터, 의미를 정의하는 시맨틱 레이어, 사용이 허가된 도구에서 나옵니다. 기본적으로, 시스템은 사용자의 데이터를 기반으로 추론할 수 있습니다. 바로 그 지점에서 경쟁 우위가 생겨납니다.

Catherine: 조직이 프로토타입에서 프로덕션으로 전환하려고 할 때 AI 에이전트 워크플로가 실패하는 지점은 주로 어디인가요?

Maria: 세 가지 주요 실패 지점이 있습니다. 첫 번째는 속도 불일치입니다. 기술은 대부분의 조직보다 더 빠르게 발전합니다. 팀들은 데이터 액세스, 보안, 구조에 대한 기반 작업을 수행하기 전에 에이전트 구축에 뛰어듭니다.

두 번째는 암묵지입니다. 직원을 유능하게 만드는 많은 요소가 사람들의 머릿속이나 흩어져 있는 문서에 있습니다. 그 지식이 에이전트가 사용할 수 있는 형태로 성문화되지 않으면, 시스템은 결코 비즈니스가 기대하는 대로 작동하지 않을 것입니다.

세 번째는 인프라입니다. 많은 팀이 규모 확장이나 실제 사용 환경을 고려하여 계획하지 않습니다. 데모에서는 한 번 작동하지만 프로덕션 부하에서는 붕괴되는 것을 만듭니다.

이 세 가지 문제는 모두 함께 나타나는 경향이 있습니다.

Catherine: 이전에 비즈니스 지식을 포착하는 것이 올바른 모델을 선택하는 것만큼 중요하다고 말씀하셨습니다. 조직들이 이 작업을 잘 수행하는 사례를 어떻게 보시나요?

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

Maria: AI 시스템이 일회성 프로젝트가 아니라는 점을 인식하는 것에서부터 시작됩니다. 그것들은 살아있는 시스템입니다. 한 가지 실용적인 접근 방식은 회의를 녹음하고 기록하여 이를 원자료로 취급하는 것입니다. 그런 다음 시스템이 나중에 검색할 수 있도록 해당 정보를 구조화하고, 요약하고, 태그를 지정합니다. 시간이 지남에 따라 비즈니스가 실제로 생각하는 방식을 반영하는 지식 기반을 구축하게 됩니다.

마찬가지로 중요한 것은 평가를 어떻게 설계하느냐입니다. 에이전트의 초기 버전은 엔지니어뿐만 아니라 비즈니스 이해관계자가 사용해야 합니다. 무엇이 적절하고, 무엇이 그렇지 않은지, 왜 무언가가 잘못되었는지에 대한 그들의 피드백은 훈련 데이터가 됩니다.

에이전트의 특정 목적에 맞춰 효과적인 평가 시스템을 구축하는 것은 고품질 출력을 보장하는 데 매우 중요하며, 이는 궁극적으로 프로덕션 환경의 모든 AI 프로젝트에 필수적입니다. 자체 사용 데이터 에 따르면 AI 평가 도구를 사용하는 고객은 그렇지 않은 고객보다 AI 프로젝트를 프로덕션으로 전환하는 경우가 거의 6배 더 많습니다.

사실상 비즈니스의 두뇌를 평가 기준으로 성문화하는 것입니다.

Catherine: 비용과 시간이 많이 소요될 것 같네요. 엄격함과 속도의 균형을 어떻게 맞추나요?

Maria: 이 지점에서 저는 최소 실행 가능 거버넌스에 대해 이야기합니다. 첫날부터 전체 기업의 거버넌스를 해결하지는 않습니다. 현재 작업 중인 특정 도메인과 사용 사례에 대해 해결합니다. 해당 에이전트에 대한 데이터가 통제되고, 추적 가능하며, 감사 가능하도록 해야 합니다. 그런 다음, 시스템의 가치가 입증되면 확장해 나갑니다.

반복 가능한 빌딩 블록, 즉 우수한 엔지니어링 및 거버넌스 관행이 이미 인코딩된 패턴을 갖추는 것이 도움이 됩니다. 이것이 바로 Agent Bricks와 같은 접근 방식의 배경이 되는 생각입니다. 팀은 매번 워크플로, 평가, 제어를 처음부터 다시 만드는 대신 정제된 기반에서 시작할 수 있습니다.

경영진은 명확한 비즈니스 KPI, 지정된 임원 후원자, 비즈니스 사용자와 함께 구축된 평가, 견고한 소프트웨어 엔지니어링 기본 원칙과 같은 몇 가지 타협할 수 없는 원칙을 미리 고수해야 합니다. 첫 번째 프로젝트는 고통스럽겠지만, 이는 이후의 모든 작업에 대한 패턴을 설정하고 후속 에이전트를 훨씬 더 빠르게 배포할 수 있게 해줍니다.

그 단계를 건너뛰면 제가 "데모웨어"라고 부르는, 즉 실제 제품이 되지 못하는 인상적인 프로토타입만 남게 됩니다.

Catherine: 에이전트가 업무 수행 방식을 실질적으로 변화시킨 사례를 공유해 주실 수 있나요?

Maria: Databricks 내부적으로 몇 군데에서 이런 사례를 보았습니다. Professional Services에서는 마이그레이션 중에 에이전트를 사용하여 고객 환경을 스캔합니다. 엔지니어가 모든 스키마와 시스템을 수동으로 검토하는 대신, 에이전트가 모범 사례를 기반으로 권장 워크플로를 생성합니다. 이를 통해 반복적인 분석에 소요되는 시간이 크게 줄어듭니다.

Field Engineering에서는 에이전트가 고객의 산업 및 사용 사례에 맞춰진 데모 환경을 자동으로 생성합니다. 수동으로 준비하는 데 몇 시간이 걸렸던 작업이 이제 훨씬 더 높은 일관성으로 훨씬 더 빠르게 처리됩니다.

두 경우 모두 에이전트는 전문성을 대체한 것이 아니라 증폭시켰습니다.

Catherine: 이 길을 막 시작하는 CIO나 CDO를 위해 이 내용을 요약해야 한다면, 그들이 가장 먼저 집중해야 할 것은 무엇일까요?

Maria: 데이터부터 시작하세요. 신뢰할 수 있는 에이전트는 통합되고 제어 가능하며 감사 가능한 데이터 기반을 필요로 합니다. 데이터가 조각나 있거나 액세스할 수 없다면 모델이 아무리 뛰어나도 에이전트는 실패할 것입니다. 둘째, 소유권을 명확히 해야 합니다. 누가 품질을 책임지나요? 누가 결과를 책임지나요? 에이전트가 "충분히 좋은" 시점은 누가 결정하나요? 그리고 마지막으로, 에이전틱 AI는 시스템이 얼마나 똑똑한지를 보여주는 것이 아니라는 점을 기억하세요. 이는 시스템이 새로운 위험을 초래하지 않으면서 비즈니스가 더 빠르고 나은 결정을 내릴 수 있도록 안정적으로 지원하는지에 관한 것입니다.

맺음말

에이전틱 AI는 인간을 돕는 도구에서 인간을 대신하여 행동하는 시스템으로의 진정한 전환을 의미합니다. 그러나 Maria가 분명히 밝혔듯이, 성공은 모델의 정교함보다는 데이터, 거버넌스, 엔지니어링의 원칙에 달려 있습니다.

경영진에게 과제는 에이전트의 등장 여부가 아닙니다. 그것은 에이전트가 등장했을 때 신뢰할 수 있는 시스템을 구축할 준비가 되어 있는지 여부입니다.

효과적인 운영 모델 구축에 대해 자세히 알아보려면 Databricks AI 성숙도 모델을 다운로드하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Infrastructure & Strategies Driving the Next Wave of Enterprise AI

데이터 리더

February 2, 2026/1분 이내 소요

엔터프라이즈 AI의 다음 물결을 이끄는 인프라 & 전략

Delta Lake

데이터 전략

February 3, 2026/2분 소요

Delta Lake 설명: 클라우드 스토리지의 데이터 신뢰성 향상