작성자: 샹루이 멍, Kasey Uhlenhuth, Hanlin Tang, Patrick Wendell , Matei Zaharia
작년에 데이터 인텔리전스, 즉 데이터를 기반으로 추론하는 AI 구축의 가능성이 Mosaic AI와 함께 현실화되었습니다. Mosaic AI는 AI 시스템을 구축, 평가, 모니터링 및 보호하는 포괄적인 플랫폼입니다. 그 이후로 수천 명의 고객이 도메인별 에이전트를 구축하여 엔터프라이즈 데이터로 운영 환경에 배포했습니다.
하지만 생성형 기술의 미성숙함으로 인해 운영 환경 배포까지의 여정은 여전히 어려웠습니다. 고품질 에이전트 구축은 여러 가지 이유로 종종 너무 복잡했습니다.
위에서 고객과 협력하여 AI를 운영 환경에 배포한 경험을 바탕으로, 지난 한 해 동안 에이전트 구축 방식을 재고했습니다. 오늘, 저희는 엔터프라이즈가 도메인별 에이전트를 개발하는 방식을 바꾸는 새로운 제품인 Agent Bricks를 소개합니다. 에이전트 개발의 압도적인 복잡성을 관리하는 대신, 팀은 가장 중요한 것, 즉 에이전트의 목적을 정의하고 자연어 피드백을 통해 품질에 대한 전략적 지침을 제공하는 데 집중할 수 있습니다. Agent Bricks는 평가 스위트를 자동으로 생성하고 품질을 자동 최적화하여 나머지를 처리합니다.

작동 방식은 다음과 같습니다.
자동 평가: Agent Bricks는 작업에 특화된 평가 벤치마크를 자동으로 생성하며, 여기에는 합성 데이터를 생성하거나 사용자 정의 LLM 심사관을 구축하는 것이 포함될 수 있습니다.
Agent Bricks를 사용하면 자동 평가를 통해 추측을 제거할 수 있습니다. 저희는 설정을 자동으로 최적화하므로 에이전트 성능을 신뢰하고 최대 효율로 실행 중임을 알 수 있습니다. 최종 결과는 이제 고품질의 비용 효율적인 에이전트를 운영 환경에 배포할 수 있다는 것입니다. Agent Bricks는 구조화된 정보 추출, 신뢰할 수 있는 지식 지원, 사용자 정의 텍스트 변환 및 오케스트레이션된 다중 에이전트 시스템을 포함한 일반적인 산업 사용 사례에 최적화되어 있습니다.
Agent Bricks는 고유하게 품질을 측정, 구축 및 지속적으로 개선할 수 있습니다. 예를 들어 문서에 대한 대화형 에이전트를 구축할 때, 여러 Q&A 벤치마크에 걸쳐 평균 품질을 측정했습니다. 이 분야의 다른 제품과 비교했을 때, Agent Bricks는 훨씬 더 높은 품질의 에이전트를 구축했습니다(그림 1). 뿐만 아니라, 지속적인 학습 능력을 통해 성능은 시간이 지남에 따라 계속 향상됩니다.
문서 이해 측면에서 Agent Bricks는 프롬프트 최적화된 독점 LLM과 비교하여 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다(그림 2). 문서 파싱 벤치마크에서 더 높은 품질을 가진 시스템을 달성할 수 있으며, 비용은 최대 10배 저렴합니다.
이 러한 벤치마크 외에도, 저희 고객들은 Agent Bricks를 사용하여 품질 좋은 에이전트를 구축할 수 있습니다.
"Agent Bricks를 통해 표준 상용 LLM에 비해 의료 정확도를 두 배로 높일 수 있었으며, Flo Health의 임상 정확도, 안전성, 개인 정보 보호 및 보안에 대한 높은 내부 기준을 충족했습니다." — Roman Bugaev, CTO, Flo Health
“Agent Bricks는 LLM-as-judge와 인간 평가 정확도 지표 모두에서 원래의 오픈 소스 구현보다 훨씬 뛰어난 성능을 보였습니다.” — Joel Wasson, Enterprise Data & Analytics, Hawaiian Electric
“[Agent Bricks]는 피드백 루프에서 품질 개선을 안내하고 성능이 동일한 더 저렴한 옵션을 식별함으로써 엔터프라이즈 전반에 걸쳐 AI 기능을 가속화했습니다. ” — Chris Nishnick, Director of AI, Lippert
Agent Bricks는 Databricks Mosaic AI 연구팀의 연구를 기반으로 이러한 결과를 달성할 수 있습니다. 에이전트 품질을 개선하기 위한 다양한 방법이 있으며, 새로운 연구가 매우 빠른 속도로 발표되고 있습니다. 저희 팀은 기존 연구를 큐레이션하고 Agent Bricks가 자동 평가 및 최적화 단계에서 사용하는 새로운 혁신을 개발합니다. 저희는 방대한 방법론을 보유하고 있지만, 오늘 저희 혁신 중 하나인 Agent Learning from Human Feedback(ALHF)을 강조하게 되어 기쁩니다.
인간 피드백을 통한 에이전트 학습(ALHF)
품질의 주요 과제는 피드백을 통해 에이전트 동작을 조정하는 능력입니다. 피드백이 종종 좋아요 또는 싫어요로만 제공되고, 피드백을 존중하기 위해 에이전트 시스템 내부의 여러 구성 요소 및 설정값 중 어떤 것을 조정해야 하는지 불분명하기 때문에 이는 특히 어렵습니다. 모든 지침을 하나의 거대한 LLM 프롬프트에 담는 현재 접근 방식은 취약하며 더 복잡한 에이전트 시스템에는 일반화되지 않습니다.
ALHF를 통해 저희는 두 가지 접근 방식으로 이 문제를 해결했습니다. 첫째, 자연어 지침(예: 1990년 5월 이전의 모든 데이터 무시)의 풍부한 컨텍스트를 받을 수 있습니다. 둘째, 이 자연어 지침을 기반으로 저희 알고리즘은 검색 알고리즘을 개선하고, 프롬프트를 강화하고, 벡터 데이터베이스를 필터링하거나, 에이전트 패턴을 수정하는 등 기술적 최적화로 지침을 지능적으로 변환합니다.
이 접근 방식은 에이전트 개발을 민주화하여 도메인 전문가가 AI 인프라에 대한 깊은 기술 전문 지식 없이도 시스템 개선에 직접 기여할 수 있도록 합니다.
"정확도를 지속적으로 평가하고 개선하는 능력은 Experian에게 핵심적인 기능이며, 특히 규제가 심한 산업에서는 더욱 그렇습니다.." — James Lin, Head of AI ML Innovation, Experian

Agent Bricks를 사용하는 초기 고객들은 이미 Agent Bricks가 제공하는 혁신을 경험하고 있습니다. 성능 벤치마크를 두 배로 향상시키고 개발 기간을 몇 주에서 단 하루로 단축하는 정확도 개선을 경험하고 있습니다. 더 중요한 것은, 불과 몇 달 전에는 불가능해 보였던 것을 달성하고 있다는 것입니다. 바로 지속 가능하고 확장 가능한 AI 시스템으로 일관된 비즈니스 가치를 제공하는 것입니다.
Agent Bricks는 단순한 도구의 진화를 넘어, 성숙하고 프로덕션 준비가 된 AI 개발로의 근본적인 전환을 나타냅니다. 에이전트 시스템이 기업 운영의 핵심이 되어감에 따라, 과거의 “느낌만으로 판단하는” 접근 방식은 더 이상 확장될 수 없습니다. 조직은 실제 비즈니스 애플리케이션의 복잡성과 요구 사항을 처리할 수 있는 지능형 에이전트를 구축하고 최적화하기 위한 강력하고 체계적인 접근 방식이 필요합니다.
많은 Databricks 고객들이 이미 Agent Bricks로 AI 에이전트를 구축했으며, 앞으로 그들이 무엇을 할 수 있을지 기대하고 있습니다.
Experian 및 Flo Health와 함께하는 동영상을 시청하세요
“Agent Bricks를 통해 저희 팀은 단 한 줄의 코드도 작성하지 않고 400,000건 이상의 임상 시험 문서를 분석하고 구조화된 데이터를 추출할 수 있었습니다. 단 60분 만에 분석에 사용할 수 있는 복잡한 비정형 데이터를 변환할 수 있는 작동하는 에이전트를 확보했습니다.” — Joseph Roemer, Head of Data & AI, Commercial IT, AstraZeneca
“Agent Bricks를 통해 프로덕션에서 신뢰할 수 있는 비용 효율적인 에이전트를 구축할 수 있었습니다. 맞춤형 평가를 통해 비정형 입법 달력을 분석하는 정보 추출 에이전트를 자신 있게 개발하여 수동 시행착오 최적화에 30일을 절약했습니다.” — Ryan Jockers, Assistant Director of Reporting and Analytics at the North Dakota University System