주요 컨텐츠로 이동

Agent Bricks 소개: 귀하의 데이터를 사용한 자동 최적화 에이전트

What's new in Mosaic AI

Published: June 11, 2025

공지사항1분 이내 소요

Summary

  • 자동 최적화 에이전트: 작업을 설명함으로써 고품질의 도메인 특화 에이전트를 구축하세요—Agent Bricks가 평가와 튜닝을 처리합니다.
  • 빠르고 비용 효율적인 결과: Mosaic AI 연구에 의해 구동되는 자동 최적화를 통해 더 낮은 비용으로 더 높은 품질을 달성하세요.
  • 생산에서 신뢰받는: Flo Health, AstraZeneca 등이 안전하고 정확한 AI를 몇 주가 아닌 몇 일 안에 확장하는 데 사용합니다.

지난해, 데이터 인텔리전스의 약속 - 귀하의 데이터를 이해할 수 있는 AI를 구축하는 것 - 이 Mosaic AI와 함께 도입되었습니다. 이것은 AI 시스템을 구축, 평가, 모니터링, 보안하는 종합 플랫폼입니다. 그 이후로, 수천 명의 고객들이 데이터 인텔리전스를 생산에 투입하였으며, 그들의 기업 데이터를 기반으로 도메인 특화 에이전트를 구축하였습니다:

  • Mastercard는 고객 온보딩을 가속화하기 위해 디지털 어시스턴트를 배포했습니다
  • AT&T는 무선 고객을 사기와 해로부터 보호합니다
  • Crisis Text Line은 정신 건강을 전문으로 하는 AI 에이전트를 구축하여 다음 세대의 위기 상담사를 훈련시켰습니다
  • 기업 맥락에 근거한 AI 코딩 보조 도구인 Block shipped goose

그러나 생성 기술의 미숙함으로 인해 생산으로의 여정은 여전히 도전적이었습니다. 고품질의 에이전트를 구축하는 것은 종종 너무 복잡했습니다, 여러 가지 이유로:

  • 평가가 어렵습니다: 많은 기업 AI 작업들은 인간과 자동화된 LLM 판사들 모두에게 평가하기 어렵습니다. 수학 시험과 같은 학문적 벤치마크는 실제 세계의 사용 사례로 번역되지 않았습니다. 미묘한 평가를 구축하는 것은 종종 비싼 수동 라벨링을 필요로 합니다. 결과적으로, 약속이 있던 프로젝트들은 끝없는 조정 주기에 빠져들며, 불분명한 진행 상황으로 인해 이해당사자들이 신뢰를 잃게 됩니다. 
  • 너무 많은 노브: 에이전트들은 각각 자신의 노브를 가진 많은 구성 요소로 이루어진 복잡한 AI 시스템입니다. 프롬프트 조정부터 인덱스 청크 전략, 모델 선택, 파인 튜닝 파라미터에 이르기까지, 각 조정은 시스템 전체에 알 수 없는 효과를 만듭니다. 빠른 반복적 개선이어야 할 것이 비싼 수동 시행착오로 변하며, 생산까지의 시간을 늦춥니다. 
  • 비용과 품질: 팀들이 위의 문제들을 해결하고 고품질의 에이전트를 구축한 후에도, 에이전트가 생산에 투입하기에 너무 비싸다는 것을 종종 놀랍게도 발견합니다. 그래서 팀들은 긴 비용 최적화 과정에 빠지거나, 비용과 품질 사이에서 타협을 강요받게 됩니다.

Agent Bricks: 귀하의 도메인 작업을 위한 자동 최적화 에이전트

고객과 함께 AI를 생산에 투입하는 작업을 통한 우리의 경험을 바탕으로, 우리는 지난해 동안 에이전트를 어떻게 구축할지에 대해 다시 생각해 보았습니다. 오늘, 우리는 기업이 도메인 특화 에이전트를 개발하는 방식을 바꾸는 새로운 제품인 Agent Bricks를 소개합니다. 에이전트 개발의 압도적인 복잡성을 관리하는 대신, 팀은 가장 중요한 것에 집중할 수 있습니다: 에이전트의 목적을 정의하고 자연어 피드백을 통해 품질에 대한 전략적 지침을 제공하는 것입니다. Agent Bricks는 나머지를 처리하며, 자동으로 평가 스위트를 생성하고 품질을 자동 최적화합니다.

Agent Bricks

진행 방식은 다음과 같습니다.

  1. 당신의 작업을 선언하세요. 작업을 선택하고, 에이전트가 달성하고자 하는 것에 대한 자연어로 된 고수준 설명을 정의하고, 데이터 소스를 연결하세요.
  2. 자동 평가: Agent Bricks는 그 다음으로 귀하의 작업에 특정한 평가 벤치마크를 자동으로 생성할 것이며, 이는 새로운 데이터를 합성적으로 생성하거나 맞춤형 LLM 판사를 구축하는 것을 포함할 수 있습니다. 
    Agent Bricks: 평가 데이터셋
    Powered by MLflow 3, Agent Bricks automatically creates evaluation datasets and custom judges tailored to your task.
  3. 자동 최적화: Agent Bricks는 프롬프트 엔지니어링, 모델 파인튜닝, 보상 모델, 또는 테스트 적응형 최적화(TAO)와 같은 다양한 최적화 기법을 지능적으로 검색하고 결합하여 고품질을 달성합니다.
  4. 비용 및 품질: 에이전트 브릭스는 에이전트가 높은 효율성을 가지면서도 비용 효율적이라는 것을 보장합니다. 사용자는 비용 최적화 또는 품질 최적화 모델 중에서 선택할 수 있습니다. 많은 경우, 최종 솔루션은 다른 DIY 접근법에 비해 품질이 더 높고 비용이 더 낮습니다.

에이전트 브릭스를 사용하면 자동 평가를 통해 추측을 제거합니다. 우리는 노브를 자동으로 최적화하므로, 에이전트의 성능을 신뢰하고 최고의 효율로 운영되고 있음을 알 수 있습니다. 최종 결과는 이제 고품질이면서 비용 효율적인 에이전트를 생산에 투입할 수 있다는 것입니다. Agent Bricks는 구조화된 정보 추출, 신뢰할 수 있는 지식 지원, 사용자 정의 텍스트 변환, 조정된 다중 에이전트 시스템을 포함한 일반적인 산업 용도에 최적화되어 있습니다.

Agent Bricks로 고품질 에이전트를 구축하세요

Agent Bricks는 품질을 측정하고, 구축하고, 지속적으로 개선하는 능력이 독특합니다. 예를 들어, 문서 위에 대화형 에이전트를 구축함으로써, 우리는 여러 Q&A 벤치마크에서 평균 품질을 측정했습니다. 이 분야의 다른 제품들과 비교하여, Agent Bricks는 훨씬 높은 품질의 에이전트를 구축했습니다(그림 1). 그뿐만 아니라, 지속적인 학습 능력을 통해 성능은 시간이 지남에 따라 계속해서 향상됩니다. 

 에이전트 브릭스는 훨씬 더 고품질의 에이전트를 구축했습니다.
Figure 1

문서 이해를 위해, 에이전트 브릭스는 프롬프트 최적화 전용 LLMs에 비해 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다 (그림 2). 우리는 문서 파싱 벤치마크에서 더 높은 품질의 시스템을 달성할 수 있지만, 비용은 최대 10배 낮을 수 있습니다.  

Agent Bricks는 프롬프트 최적화 전용 LLM에 비해 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다.
Figure 2

이러한 벤치마크를 넘어서, 우리의 고객들은 Agent Bricks를 사용하여 품질이 높은 에이전트를 구축할 수 있습니다:

"Agent Bricks를 통해 우리는 표준 상업용 LLM에 비해 의료 정확도를 두 배로 높일 수 있었으며, Flo Health의 높은 내부 기준인 임상 정확도, 안전성, 개인 정보 보호, 보안을 충족시켰습니다."
— Roman Bugaev, CTO, Flo Health
“에이전트 브릭스는 LLM-as-judge 및 인간 평가 정확도 지표에서 우리의 원래 오픈 소스 구현을 크게 능가했습니다.”
— Joel Wasson, 엔터프라이즈 데이터 & 분석, Hawaiian Electric
“[Agent Bricks]는 우리의 AI 능력을 기업 전체에 가속화시켰으며, 피드백 루프에서 품질 개선을 안내하고 마찬가지로 잘 수행되는 저비용 옵션을 식별했습니다.” 
— Chris Rishnick, AI 디렉터, Lippert

최신 에이전트 학습 연구에 기반한

Agent Bricks는 우리의 Databricks Mosaic AI 연구팀에서 나오는 연구에 기반을 두고 있기 때문에 이러한 결과를 달성할 수 있습니다. 에이전트 품질을 향상시키는 방법에는 다양한 방법이 있으며, 새로운 연구가 숨가쁘게 발표되고 있습니다. 우리 팀은 기존 연구를 큐레이션하고, 이를 Agent Bricks가 자동 평가 및 최적화 단계에서 사용하는 새로운 혁신을 개발합니다. 우리는 방대한 방법들을 가지고 있지만, 오늘 우리는 우리의 혁신 중 하나인 '인간 피드백에서 학습하는 에이전트' (ALHF)를 강조하게 되어 기쁩니다.

인간의 피드백에서 학습하는 에이전트 (ALHF)

품질에 대한 주요 도전 과제는 피드백에서 에이전트 행동을 조정하는 능력입니다. 이것은 특히 어려운 일인데, 피드백은 종종 좋아요 또는 싫어요로만 제공되며, 에이전트 시스템 내의 많은 구성 요소와 노브 중 어떤 것을 조정해야 피드백을 존중하는지가 불분명하기 때문입니다. 현재의 접근 방식은 모든 지시사항을 하나의 거대한 LLM 프롬프트에 넣는 것이며, 이는 취약하고 더 복잡한 에이전트 시스템에 일반화되지 않습니다.

ALHF를 통해, 우리는 두 가지 접근법으로 이 문제를 해결했습니다. 첫째, 우리는 자연어 가이드의 풍부한 맥락을 받을 수 있습니다 (예: 1990년 5월 이전의 모든 데이터는 무시하세요). 두 번째로, 이 자연어 가이드라인을 기반으로, 우리의 알고리즘은 이 가이드라인을 기술적 최적화로 지능적으로 번역합니다 - 검색 알고리즘을 개선하고, 프롬프트를 강화하고, 벡터 데이터베이스를 필터링하거나, 심지어 에이전트 패턴을 수정합니다.

이 접근법은 에이전트 개발을 민주화시키며, AI 인프라에 대한 깊은 기술적 전문성 없이 도메인 전문가들이 시스템 개선에 직접 기여할 수 있게 합니다.

"정확성을 지속적으로 평가하고 개선하는 능력은 Experian에게 특히 중요한 능력입니다, 특히 규제가 엄격한 산업에서."
— James Lin, AI ML 혁신 헤드, Experian

인간의 피드백에서 학습하는 에이전트 (ALHF)

앞으로의 길: 실험실에서 생산까지 몇 달이 아닌 몇 일 안에

초기 고객들은 이미 에이전트 브릭스가 제공하는 변화를 경험하고 있습니다 - 성능 벤치마크를 두 배로 향상시키고 개발 시간을 몇 주에서 단 하루로 줄이는 정확도 향상. 더 중요한 것은, 그들이 몇 달 전에는 불가능해 보였던 것을 달성하고 있다는 것입니다: 지속 가능하고 확장 가능한 AI 시스템이 일관된 비즈니스 가치를 제공합니다.

Agent Bricks는 도구의 진화를 넘어서 - 이것은 성숙하고, 생산 준비가 된 AI 개발로의 근본적인 전환입니다. 에이전트 시스템이 기업 운영의 중심이 되면서, 과거의 "분위기 체크" 접근법은 단순히 확장되지 않을 것입니다. 조직은 실제 비즈니스 애플리케이션의 복잡성과 요구 사항을 처리할 수 있는 지능형 에이전트를 구축하고 최적화하는 견고하고 체계적인 접근 방식이 필요합니다.

에이전트 브릭스를 사용하는 고객들

많은 Databricks 고객들이 이미 Agent Bricks로 AI 에이전트를 구축했으며, 우리 모두는 그들이 미래에 무엇을 할 수 있을지 기대하고 있습니다.

다음 비디오 를 Experian과 Flo Health와 함께 보세요

“Agent Bricks를 사용하여 우리 팀은 400,000개 이상의 임상 시험 문서를 파싱하고 구조화된 데이터 포인트를 추출할 수 있었습니다. 이를 위해 코드 한 줄도 작성하지 않았습니다. 단지 60분이 채 되지 않아, 우리는 복잡한 비구조화된 데이터를 분석에 사용할 수 있는 형태로 변환할 수 있는 작동하는 에이전트를 가지게 되었습니다."
— 조셉 로머, 데이터 & AI 팀장, 상업 IT, 아스트라제네카
“Agent Bricks를 통해 우리는 생산에서 신뢰할 수 있는 비용 효율적인 에이전트를 구축할 수 있었습니다. 맞춤형 평가를 통해, 우리는 비구조화된 입법 캘린더를 파싱하는 정보 추출 에이전트를 자신있게 개발했으며, 이로써 30일의 수동 시행착오 최적화를 절약했습니다.”
— Ryan Jockers, 북다코타 대학 시스템의 보고서 및 분석 부서장

오늘 Agent Bricks를 시도해보세요.

“데모 품질”과 “생산 품질” 사이의 격차를 메우려고 하시나요? Agent Bricks는 이제 베타 버전으로 사용 가능합니다.

시작하기

  • 설명서 읽기
  • 기조 연설을 보세요.
  • Watch 고객들이 Agent Bricks를 사용하는 이점을 설명하는 것을 보십시오

기업 AI의 미래는 복잡성을 관리하는 것이 아니라, Agent Bricks가 나머지를 처리하는 동안 중요한 결과에 초점을 맞추는 것입니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요