작성자: 샹루이 멍, Kasey Uhlenhuth, Hanlin Tang, Patrick Wendell , Matei Zaharia
작년에 데이터 인텔리전스, 즉 데이터를 기반으로 추론하는 AI 구축의 가능성이 Databricks와 함께 현실화되었습니다. Databricks는 AI 시스템을 구축, 평가, 모니터링 및 보호하는 포괄적인 플랫폼입니다. 그 이후로 수천 명의 고객이 도메인별 에이전트를 구축하여 엔터프라이즈 데이터로 운영 환경에 배포했습니다.
하지만 생성형 기술의 미성숙함으로 인해 운영 환경 배포까지의 여정은 여전히 어려웠습니다. 고품질 에이전트 구축은 여러 가지 이유로 종종 너무 복잡했습니다.
위에서 고객과 협력하여 AI를 운영 환경에 배포한 경험을 바탕으로, 지난 한 해 동안 에이전트 구축 방식을 재고했습니다. 오늘, 저희는 엔터프라이즈가 도메인별 에이전트를 개발하는 방식을 바꾸는 새로운 제품인 Agent Bricks를 소개합니다. 에이전트 개발의 압도적인 복잡성을 관리하는 대신, 팀은 가장 중요한 것, 즉 에이전트의 목적을 정의하고 자연어 피드백을 통해 품질에 대한 전략적 지침을 제공하는 데 집중할 수 있습니다. Agent Bricks는 평가 스위트를 자동으로 생성하고 품질을 자동 최적화하여 나머지를 처리합니다.

작동 방식 은 다음과 같습니다.
자동 평가: Agent Bricks는 작업에 특화된 평가 벤치마크를 자동으로 생성하며, 여기에는 합성 데이터를 생성하거나 사용자 정의 LLM 심사관을 구축하는 것이 포함될 수 있습니다.
Agent Bricks를 사용하면 자동 평가를 통해 추측을 제거할 수 있습니다. 저희는 설정을 자동으로 최적화하므로 에이전트 성능을 신뢰하고 최대 효율로 실행 중임을 알 수 있습니다. 최종 결과는 이제 고품질의 비용 효율적인 에이전트를 운영 환경에 배포할 수 있다는 것입니다. Agent Bricks는 구조화된 정보 추출, 신뢰할 수 있는 지식 지원, 사용자 정의 텍스트 변환 및 오케스트레이션된 다중 에이전트 시스템을 포함한 일반적인 산업 사용 사례에 최적화되어 있습니다.
Agent Bricks는 고유하게 품질을 측정, 구축 및 지속적으로 개선할 수 있습니다. 예를 들어 문서에 대한 대화형 에이전트를 구축할 때, 여러 Q&A 벤치마크에 걸쳐 평균 품질을 측정했습니다. 이 분야의 다른 제품과 비교했을 때, Agent Bricks는 훨씬 더 높은 품질의 에이전트를 구축했습니다(그림 1). 뿐만 아니라, 지속적인 학습 능력을 통해 성능은 시간이 지남에 따라 계속 향상됩니다.
문서 이해 측면에서 Agent Bricks는 프롬프트 최적화된 독점 LLM과 비교하여 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다(그림 2). 문서 파싱 벤치마크에서 더 높은 품질을 가진 시스템을 달성할 수 있으며, 비용은 최대 10배 저렴합니다.