2026년 4월 10일

AI 에이전트를 위한 메모리 스케일링

추론 확장을 통해 LLM은 적절한 컨텍스트가 제공된다면 대부분의 실제 상황을 추론할 수 있는 수준까지 발전했습니다. 많은 실제 에이전트의 경우 병목 현상은 더 이상 추론 능력이 아니라 에이전트를 올바른 정보에 기반하게 하는 것입니다. 즉, 당면 과제에 필요한 것을 모델에 제공하는 것입니다.

이는 에이전트 설계를 위한 새로운 축을 시사합니다. 더 강력한 모델이나 더 나은 프롬프트에만 집중하기보다는, 에이전트가 더 많은 정보를 축적함에 따라 성능이 향상되는지 질문해 볼 수 있습니다. 저희는 이를 메모리 스케일링이라고 부릅니다. 이는 에이전트의 메모리에 저장된 과거 대화, 사용자 피드백, 상호작용 궤적(성공 및 실패 모두), 비즈니스 컨텍스트의 양에 따라 에이전트 성능이 향상되는 속성입니다. 이 효과는 조직 내 지식이 풍부하고 단일 에이전트가 많은 사용자에게 서비스를 제공하는 기업 환경에서 특히 두드러집니다.

하지만 이것은 선험적으로 명확하지 않습니다. 메모리가 많다고 해서 에이전트가 자동으로 더 나아지는 것은 아닙니다. 품질이 낮은 추적은 잘못된 교훈을 줄 수 있으며, 저장소가 커질수록 검색이 더 어려워집니다. 핵심 질문은 에이전트가 단순히 메모리를 축적하는 것이 아니라 더 큰 메모리를 생산적으로 사용할 수 있는지 여부입니다.

Databricks에서는 인간의 피드백을 기반으로 에이전트 행동을 조정하는 ALHF 및 MemAlign 과, 검색 에이전트가 복잡한 자연어 지시와 지식 소스 스키마를 정확하고 구조화된 검색 query로 변환할 수 있게 해주는 Instructed Retriever를 통해 이러한 방향으로 초기 단계를 밟아왔습니다. 이러한 시스템들은 종합적으로 에이전트가 영구 메모리를 통해 더 유용해질 수 있음을 보여줍니다. 이 게시물에서는 메모리 확장 동작을 보여주는 실험 결과를 제시하고, 프로덕션에서 이를 지원하는 데 필요한 인프라에 대해 논의하며, 메모리 기반 에이전트에 대한 미래 지향적인 비전을 제공합니다.

메모리 스케일링이란 무엇인가?

메모리 확장(Memory Scaling)은 에이전트의 외부 메모리가 커짐에 따라 성능이 향상되는 속성입니다. 여기서 "메모리"는 모델의 가중치나 현재 컨텍스트 창과는 별개로, 에이전트가 추론 시간에 상호 작용할 수 있는 영구적인 정보 저장소를 의미합니다.

이는 메모리 스케일링을 파라미터 스케일링 및 추론 시간 스케일링과는 구별되는 보완적인 축으로 만들어, 모델 크기나 추론 능력만으로는 해결할 수 없는 도메인 지식 및 그라운딩의 격차를 해소합니다. 메모리 스케일링으로 인한 개선은 답변 품질에만 국한되지 않습니다. 에이전트가 환경에 대한 관련 스키마, 도메인 규칙 또는 성공적인 과거 작업을 기억하면 중복 탐색을 건너뛰고 쿼리를 더 빨리 해결할 수 있습니다. 저희 실험에서는 정확도와 효율성 모두에서 스케일링을 관찰할 수 있었습니다.

지속적인 학습과의 관계

지속적 학습은 일반적으로 시간에 따른 모델 매개변수 업데이트에 중점을 두는데, 이는 제한된 환경에서는 잘 작동하지만 다수의 동시 사용자, 에이전트, 빠르게 변화하는 프로젝트가 있는 경우에는 계산 비용이 많이 들고 취약해집니다. 메모리 확장은 다른 질문을 던집니다. 수천 명의 사용자를 둔 에이전트가 단 한 명의 사용자를 둔 에이전트보다 더 나은 성능을 보일까요? LLM 가중치를 고정한 상태에서 에이전트의 공유 외부 상태를 확장하면 정답은 '예'가 될 수 있습니다. 즉, 한 사용자로부터 학습된 워크플로 패턴을 재훈련 없이 즉시 검색하여 다른 사용자에게 적용할 수 있습니다. 단일 사용자의 모델 매개변수 업데이트에 초점을 맞추는 지속적 학습은 애초에 이러한 속성을 제공하도록 설계되지 않았습니다.

긴 컨텍스트와의 관계

큰 컨텍스트 창은 메모리의 대체재처럼 보일 수 있지만, 서로 다른 문제를 해결합니다. 수백만 개의 원시 토큰을 프롬프트에 채워 넣는 것은 지연 시간을 늘리고 compute 비용을 높이며, 관련 없는 토큰이 어텐션을 두고 경쟁하면서 추론 품질을 저하시킵니다. 대신 메모리 스케일링은 선택적 검색, 즉 얼마나 많은 컨텍스트를 포함할지뿐만 아니라 무엇을 포함할지를 결정하여 현재 작업과 관련된 신호가 강한 정보만 드러내는 방식에 의존합니다.

메모리의 유형

모든 메모리가 같은 목적을 수행하는 것은 아닙니다. 실제로는 두 가지 구분이 중요합니다.

일화적 메모리 vs. 의미적 메모리. 일화적 메모리는 대화 로그, 도구 호출 궤적, 사용자 피드백과 같은 과거 상호작용의 원시 기록입니다. 의미적 메모리는 이러한 상호작용에서 추출된 일반화된 기술과 사실입니다(예: "이 영역의 사용자가 '분기'라고 말할 때는 항상 회계 분기를 의미한다"). 각 유형은 서로 다른 저장, 처리, 검색 전략을 필요로 합니다. 일화적 메모리는 직접 검색을 위해, 의미적 메모리는 LLM에 의해 추출되어 더 광범위한 패턴 일치를 위해 사용됩니다.
개인적 메모리 vs. 조직적 메모리. 어떤 메모리는 단일 사용자의 선호도 및 워크플로에 국한되지만, 다른 메모리는 명명 규칙, 공통 쿼리, 비즈니스 규칙과 같은 공유된 조직의 지식을 나타냅니다. 메모리 시스템은 검색 및 업데이트의 범위를 적절하게 지정해야 합니다. 즉, 권한 및 ACL을 존중하면서 개인 컨텍스트는 비공개로 유지하고 조직의 지식은 광범위하게 노출해야 합니다.

실험: Genie Space에서의 MemAlign

MemAlign 은 AI 에이전트를 위한 간단한 메모리 프레임워크가 어떤 모습일 수 있는지에 대한 저희의 탐구입니다. 이는 과거의 상호작용을 일화 기억(episodic memories)으로 저장하고, LLM을 사용하여 이를 일반화된 규칙과 패턴(의미 기억, semantic memories)으로 추출하며, 추론 시 가장 관련성 높은 항목을 검색하여 에이전트를 안내합니다. 프레임워크에 대한 자세한 내용은 이전 블로그 게시물을 참조하세요.

저희는 비즈니스 사용자가 평이한 영어로 데이터 관련 질문을 하고 SQL 기반 답변을 받는 자연어 인터페이스인 Databricks Genie space에서 MemAlign을 테스트했습니다. 작업 쿼리 및 답변의 예는 다음과 같습니다.

저희의 목표는 선별된 예시(레이블 지정됨)와 원시 사용자 대화 Logs(레이블 미지정)라는 두 가지 데이터 소스를 사용하여, 더 많은 메모리를 제공함에 따라 에이전트 성능이 어떻게 확장되는지 측정하는 것입니다.

레이블이 지정된 데이터를 사용한 확장

에이전트의 메모리에 주석이 달린 학습 예제 샤드를 점진적으로 추가하면서 10개의 Genie 스페이스에 걸쳐 있는 새로운 질문에 대해 MemAlign을 평가했습니다. 저희의 기준선은 전문가가 큐레이션한 Genie 지침(수동으로 작성된 테이블 스키마, 도메인 규칙, 퓨샷 예제)을 사용하는 에이전트입니다.

**Figure 1.** Test score and mean reasoning steps vs. number of memorized labeled samples from **10 annotated Genie spaces**.

결과는 두 차원 모두에서 일관된 스케일링을 보여줍니다.

정확도 테스트 점수는 메모리 샤드를 추가할 때마다 꾸준히 증가하여 0에 가까운 수준에서 70%까지 상승했고, 최종적으로 전문가가 큐레이팅한 기준선을 약 5% 초과했습니다. 조사 결과, 사람이 레이블링한 데이터가 수동으로 작성된 테이블 스키마 및 도메인 규칙보다 더 포괄적이고 따라서 더 유용한 것으로 입증되었습니다.

효율성. 메모리가 증가함에 따라 예시당 평균 추론 단계 수가 약 20개에서 약 5개로 감소했습니다. 에이전트는 데이터베이스를 처음부터 탐색하는 대신 관련 컨텍스트를 직접 검색하는 방법을 학습하여 하드코딩된 명령어의 효율성(약 3.8단계)에 근접했습니다.

그 효과는 누적적입니다. 기억된 샘플이 10개의 서로 다른 Genie 공간에 걸쳐 있기 때문에 각 샤드는 이전 지식을 기반으로 하는 교차 도메인 정보를 제공합니다.

라벨이 없는 사용자 Logs로 확장하기

노이즈가 많은 실제 데이터로도 메모리를 확장할 수 있을까요? 이를 알아보기 위해 라이브 Genie space에서 MemAlign을 실행하고 골드 답변이 없는 과거 사용자 대화 Logs를 제공했습니다. LLM 심사관이 이 Logs에서 유용성을 기준으로 필터링했으며, 고품질 Logs만 기억되었습니다.

**Figure 2.** Test score and mean reasoning steps vs. number of ingested user logs from a **Live Genie Space**.

스케일링 곡선은 비슷한 패턴을 따르며 시작 부분에서 더 가파릅니다:

정확도 에이전트는 초기에 급격한 성능 향상을 보였습니다. 첫 번째 로그 샤드 이후, 관련 테이블과 암시적인 사용자 선호도에 대한 핵심 정보를 추출했습니다. 단 62개의 로그 기록만으로 성능이 2.5%에서 50% 이상으로 향상되어 전문가가 선별한 기준선(33.0%)을 능가했습니다.

효율성. 첫 번째 샤드 이후 추론 단계는 약 19단계에서 약 4.3단계로 감소했으며 안정적으로 유지되었습니다. 에이전트는 초기에 공간의 스키마를 내재화하여 후속 쿼리에서 중복 탐색을 피했습니다.

핵심 내용: 자동화되고 참조가 없는 심사위원(judge)에 의해서만 필터링된, 선별되지 않은 사용자 상호 작용은 비용과 시간이 많이 소요되는 수작업으로 설계된 도메인 지침을 대체할 수 있습니다. 이는 또한 일반적인 사용을 통해 지속적으로 개선되고 인간의 주석 작업의 한계를 넘어 확장될 수 있는 에이전트의 가능성을 시사합니다.

Experiment: 조직 지식 저장소

위의 실험은 사용자 상호작용을 통해 메모리 확장이 어떻게 일어나는지를 보여줍니다. 그러나 기업에는 테이블 스키마, 대시보드 쿼리, 비즈니스 용어집, 내부 문서 등 사용자 상호작용보다 먼저 존재하는 기존 지식도 있습니다. 이러한 조직의 지식을 구조화된 메모리 저장소에 미리 계산하여 저장하는 것이 에이전트 성능을 향상시킬 수 있는지 테스트했습니다.

저희는 이 지식 저장소를 내부 데이터 리서치 벤치마크와, 제품 관리자 회의록 및 기획 자료와 같은 혼합된 내부 문서에 대한 철저한 사실 검색을 테스트하는 PMBench에서 평가했습니다.

저희 파이프라인은 원시 데이터베이스 메타데이터를 다음 세 단계에 걸쳐 검색 가능한 지식으로 처리합니다. (1) 자산에 대한 정보 추출, (2) 추가 변환을 통한 자산 보강, (3) 보강된 콘텐츠의 인덱싱. 쿼리 시 에이전트는 키워드 검색 또는 계층적 탐색을 통해 기업 컨텍스트를 조회할 수 있습니다. 이는 비즈니스 사용자가 질문을 표현하는 방식('AI 소비')과 데이터가 실제로 저장되는 방식(특정 테이블의 특정 열 이름) 사이의 격차를 해소합니다.

지식 저장소를 추가하자 평가된 두 벤치마크 모두에서 정확도가 약 10% 향상되었습니다. 이러한 향상은 어휘 연결, 테이블 조인, 열 수준의 지식이 필요한 질문, 즉 에이전트가 스키마 탐색만으로는 발견할 수 없었던 정보에 집중되었습니다.

그림 3 — Figure 3. Building an organizational knowledge store from a collection of enterprise assets

메모리 스케일링을 위한 인프라

엔터프라이즈 배포 환경에서의 메모리 스케일링에는 단순한 벡터 저장소를 넘어서는 강력한 인프라가 필요합니다. 다음으로 이 인프라가 해결해야 할 세 가지 주요 과제인 확장 가능한 스토리지, 메모리 관리, 거버넌스에 대해 논의하겠습니다.

확장 가능한 스토리지

가장 간단한 메모리 스토리지는 파일 시스템입니다. 즉, 계층적 폴더에 있는 마크다운 파일을 표준 셸 도구로 탐색하고 검색하는 것입니다. 파일 기반 메모리는 소규모 및 개별 사용자에게는 잘 작동하지만 인덱싱, 구조화된 쿼리, 효율적인 유사성 검색 기능이 부족합니다. 여러 사용자에 걸쳐 메모리가 수천 개의 항목으로 증가함에 따라 검색 성능이 저하되고 거버넌스 시행이 어려워집니다.

전용 데이터 저장소가 자연스러운 다음 단계입니다. 독립형 벡터 데이터베이스는 시맨틱 검색을 잘 처리하지만 조인 및 필터링과 같은 관계형 기능이 부족합니다. 최신 PostgreSQL 기반 시스템은 더 통합된 대안을 제공합니다. 단일 엔진에서 구조화된 쿼리, 전체 텍스트 검색, 벡터 유사성 검색을 기본적으로 지원합니다.

스토리지와 컴퓨팅을 분리하고 저비용의 영구 스토리지를 제공하는 이 아키텍처의 Serverless 변형 은 자연스러운 선택입니다. 우리는 사용량에 따라 비용이 0까지 축소(scale-to-0)되고 벡터 검색과 정확한 일치 검색을 모두 지원하기 때문에 Neon 의 Serverless PostgreSQL 엔진을 기반으로 구축된 Lakebase 를 사용해 왔습니다. 기본 내장 데이터베이스 분기 기능은 개발 주기를 단순화합니다. 엔지니어는 프로덕션에 영향을 주지 않고 테스트를 위해 에이전트의 메모리 상태를 포크할 수 있습니다.

메모리 관리

확장 가능한 스토리지 하나만으로는 충분하지 않습니다. 메모리 시스템은 콘텐츠도 관리해야 합니다:

부트스트래핑. 새로운 에이전트는 콜드 스타트 문제로 어려움을 겪는 것으로 알려져 있습니다. 문서 파싱 및 추출을 통해 기존 엔터프라이즈 자산(위키, 문서, 내부 가이드)을 수집하면 초기 메모리 기반을 제공하여 이러한 문제 중 일부를 완화할 수 있으며, 이는 조직 지식 저장소 실험에서 입증되었습니다.
증류. 원시 일화 기억은 직접 검색에 유용하지만 대규모로 저장하고 검색하는 데 비용이 많이 듭니다. 이를 주기적으로 의미론적 메모리(압축된 규칙과 패턴)로 증류하면 메모리 저장소를 다루기 쉽게 유지하고, 일화적 메모리만으로는 명확하게 알 수 없는 일반화 가능한 인사이트를 에이전트에게 제공합니다.
통합. 메모리가 증가함에 따라 시스템을 일관되고 간결하며 최신 상태로 유지하는 것이 중요합니다. 이를 위해서는 중복을 제거하고 오래된 정보를 정리하며 이전 항목과 새 항목 간의 충돌을 해결하는 파이프라인이 필요합니다.

보안

메모리는 상태 비저장 에이전트에는 존재하지 않는 거버넌스 요구사항을 발생시킵니다. 에이전트가 사용자 선호도, 독점 워크플로, 내부 데이터 패턴을 포함하여 깊이 있는 맥락적 지식을 축적함에 따라 엔터프라이즈 데이터에 적용되는 것과 동일한 거버넌스 원칙이 에이전트 메모리에도 확장되어야 합니다.

액세스 제어는 ID를 인식해야 합니다. 개별 메모리는 비공개로 유지되어야 하며, 조직의 지식은 액세스 제어 범위 내에서 공유될 수 있습니다. 이는 Unity Catalog 와 같은 플랫폼이 이미 행 수준 보안, 열 마스킹, 속성 기반 액세스 제어 등 데이터 자산에 대해 적용하는 세분화된 권한 종류에 자연스럽게 매핑됩니다.

이러한 제어를 메모리 항목으로 확장하면 한 사용자의 컨텍스트를 검색하는 에이전트가 실수로 다른 사용자의 비공개 상호작용을 노출하는 것을 방지할 수 있습니다.

액세스 제어 외에도 데이터 리니지 및 감사 가능성이 중요합니다. 에이전트의 행동이 메모리에 의해 형성될 때, 팀은 어떤 메모리가 특정 응답에 영향을 미쳤는지, 그리고 해당 메모리가 언제 생성 또는 업데이트되었는지 추적해야 합니다. 특히 규제 산업의 규정 준수 및 규제 요구 사항은 메모리 저장소가 기본 데이터와 동일한 관찰 가능성 보장을 지원하도록 요구합니다. 즉, 전체 계보 추적, 보존 정책, 요청 시 특정 항목을 제거하는 기능입니다.

올바른 메모리가 올바른 사용자에게, 그리고 오직 그 사용자에게만 도달하도록 보장하는 것은 대규모 환경에서의 핵심 설계 문제입니다.

방해 요인

모든 스케일링 축은 결국 자체적인 병목 현상에 부딪히게 됩니다. 파라미터 확장은 고품질 학습 데이터의 공급에 의해 제약을 받습니다. 추론 시간 스케일링은 과도한 사고로 변질될 수 있습니다. 즉, 더 긴 추론 체인은 신호를 추가하지 않은 채 비용만 증가시키고, 궁극적으로 시퀀스 길이가 길어짐에 따라 성능을 저하시킵니다. 메모리 확장에는 품질, 범위, 접근성의 문제와 같은 유사한 한계가 있습니다.

메모리 품질은 유지하기 어렵습니다. 어떤 기억은 처음부터 잘못된 것이고, 다른 기억은 시간이 지나면서 잘못됩니다. 상태 비저장 에이전트는 개별적인 실수를 하지만, 메모리를 갖춘 에이전트는 실수를 저장했다가 나중에 증거로 검색하여 하나의 실수를 반복적인 실수로 만들 수 있습니다. 에이전트가 그 자체로 잘못된 이전 실행의 노트북을 인용한 다음, 훨씬 더 큰 확신을 가지고 그 결과를 재사용하는 것을 본 적이 있습니다. 부실함은 더 미묘한 문제입니다. 지난 분기의 스키마를 학습한 에이전트는 그 이후 이름이 바뀌거나 삭제된 테이블을 계속 쿼리할 수 있습니다. 수집 시 필터링이 도움이 되지만, 프로덕션 시스템에는 필터링 이상의 것이 필요합니다. 출처, 신뢰도 추정치, 최신성 신호, 주기적인 재검증이 필요합니다.

거버넌스는 증류(distillation)까지 확장되어야 합니다. 조직 전체에서 메모리를 확장하려면 반복되는 상호작용을 재사용 가능한 의미 기억으로 추출해야 합니다. 하지만 추상화가 민감성을 제거하지는 않습니다. "Y사의 경우 CRM, 시장 정보 및 파트너십 테이블을 조인하라"와 같은 메모리는 무해해 보일 수 있지만, 기밀 인수 관심을 드러낼 수 있습니다. 과제는 개인적인 패턴을 공유 지식으로 바꾸지 않으면서 메모리를 널리 유용하게 만드는 것입니다. 접근 제어 및 민감도 레이블은 수집뿐만 아니라 추출 과정에서도 유지되어야 합니다.

유용한 메모리에 접근하지 못할 수 있습니다. 메모리가 정확하고 최신 상태이더라도 에이전트는 해당 메모리가 존재한다는 사실을 발견해야 합니다. 검색은 본질적으로 메타인지적입니다. 에이전트는 메모리 저장소에 무엇이 있는지 알기 전에 무엇을 물어볼지 결정해야 합니다. 관련 메모리가 도움이 될 수 있다는 것을 예측하지 못하면 에이전트는 올바른 쿼리를 실행하지 못하고 느리고 중복되는 탐색으로 돌아갑니다. 실제로 저장된 지식과 접근 가능한 지식 간의 격차는 메모리 확장의 주요 제한 요인이 될 수 있습니다.

이는 메모리 스케일링에 반대하는 주장이 아닙니다. 이는 메모리 스케일링을 견고하게 만들기 위해 아직 해결해야 할 연구 과제입니다. 핵심 문제는 단순히 더 많은 기록을 저장하는 것이 아니라, 에이전트에게 올바른 메모리를 찾고, 적절하게 사용하며, 최신 상태로 유지하고 적절하게 범위를 지정하는 방법을 가르치는 것입니다.

미래 전망: 메모리로서의 에이전트

위의 실험과 인프라는 모델 가중치가 아닌 메모리에 정체성이 있는 에이전트라는 자연스러운 디자인 패턴을 제시합니다.

이 설계에서 에이전트의 컨텍스트는 Lakebase와 같은 Serverless 데이터베이스에 있는 영구 저장소에서 구축됩니다. 저장소는 시스템 프롬프트 및 에이전트 기능(기술), 구조화 및 비구조화된 엔터프라이즈 자산(지식), 조직 및 사용자 수준으로 범위가 지정된 일화적 및 의미적 메모리의 세 가지 구성 요소를 보유합니다. 이러한 구성 요소들은 함께 에이전트의 상태, 즉 지침, 검색된 문서, 관련 메모리, 실행 결과(SQL 쿼리, API 호출 및 기타 도구에서), 대화 기록을 형성합니다. 이 상태는 각 단계에서 LLM에 제공되고 각 상호작용 후에 업데이트됩니다.

LLM 자체는 교체 가능한 추론 엔진입니다. 새 모델이 동일한 영구 저장소에서 읽어오고 축적된 모든 컨텍스트의 이점을 즉시 누릴 수 있으므로 최신 모델로의 업그레이드는 간단합니다.

파운데이션 모델의 기능이 비슷해짐에 따라 엔터프라이즈 에이전트의 차별화 요소는 점점 더 어떤 모델을 호출하는지가 아니라 어떤 메모리를 축적했는지가 될 것입니다. 가설적으로, 풍부한 메모리 저장소를 가진 더 작은 모델이 메모리가 적은 더 큰 모델보다 성능이 뛰어날 수 있습니다. 만약 그렇다면, 메모리 인프라에 투자하는 것이 모델 파라미터를 확장하는 것보다 더 큰 수익을 가져올 수 있습니다. 조직에 특화된 도메인 지식, 사용자 선호도, 운영 패턴은 어떤 파운데이션 모델에도 포함되어 있지 않습니다. 이러한 정보는 사용을 통해서만 구축될 수 있으며, 모델 기능과 달리 각 배포 환경에 고유합니다.

그림 4. Lakebase를 기반으로 구축된 메모리 기반 에이전트 프레임워크입니다. — *Figure 4. A memory-powered agent framework built on Lakebase.*

결론

에이전트가 사용자 상호 작용 및 비즈니스 컨텍스트를 통해 더 많은 경험을 메모리에 축적함에 따라 성능이 향상되는 메모리 확장(Memory Scaling)을 제안합니다. 초기 실험 결과, 정확도와 효율성 모두 외부 메모리에 저장된 정보의 양에 따라 확장되는 것으로 나타났습니다.

프로덕션 환경에서 이를 실현하려면 정형 및 비정형 검색을 통합하는 스토리지 시스템, 메모리 일관성을 유지하는 관리 파이프라인, 액세스 범위를 적절하게 지정하는 거버넌스 제어가 필요합니다. 이는 현재 기술로 해결할 수 있는 문제입니다. 그 보상은 지속적으로 사용할수록 진정으로 개선되는 에이전트를 얻는 것입니다.

남은 작업은 상당합니다. 메모리는 커지면서 정확성, 최신성, 접근성을 유지해야 합니다. 하지만 바로 그 점이 메모리 스케일링이 흥미로운 이유입니다. 이는 각 조직과 문제에 특화된 방식으로 지속적인 사용을 통해 개선되는 에이전트를 구축하기 위한 구체적인 시스템 및 연구 의제를 제시합니다.

저자: Wenhao Zhan, Veronica Lyu, Jialu Liu, Michael Bendersky, Matei Zaharia, Xing Chen

프로젝트 전반에 걸쳐 귀중한 피드백을 주신 Kenneth Choi, Sam Havens, Andy Zhang, Ziyi Yang, Ashutosh Baheti, Sean Kulinski, Alexander Trott, Will Tipton, Gavin Peng, Rishabh Singh, Patrick Wendell 님께 감사의 말씀을 전합니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)