주요 컨텐츠로 이동
일체 포함

Databricks, OpenAI와 GPT-5.5 파트너십 체결

GPT-5.5, Databricks OfficeQA 벤치마크에서 최첨단 성능 달성

작성자: Hanlin Tang, 아흐메드 빌랄, Arnav Singhvi, Ivan Zhou , 해리시 가우르

  • Databricks, OpenAI와 GPT-5.5 파트너십 체결
  • GPT-5.5, OfficeQA Pro에서 오류율 거의 절반으로 감소
  • OpenAI GPT-5.5 및 Codex, 곧 Databricks에서 사용 가능하며 Unity AI Gateway를 통해 관리

Databricks는 OpenAI의 최신 프론티어 모델인 GPT-5.5에 대한 파트너십을 발표하게 된 것을 기쁘게 생각합니다. GPT-5.5는 엔터프라이즈 환경에서의 에이전트 작업, 복잡한 문서 추론, 장기 코딩 에이전트 분야에서 OpenAI의 가장 강력한 프론티어 모델입니다. 또한 GPT-5.5는 이제 OpenAI의 코딩 에이전트인 Codex에도 적용됩니다.

GPT-5.5의 특징 및 이점

GPT-5.5는 지금까지 출시된 프론티어 모델 중 가장 뛰어나며, 업무 수행 방식을 혁신할 다음 단계입니다. 사용자의 의도를 더 빠르게 파악하고 더 많은 작업을 스스로 처리할 수 있습니다. OpenAI의 코딩 에이전트인 Codex는 이제 GPT-5.5를 기반으로 하여 개발자 워크플로우를 위한 더욱 강력한 추론 및 실행 기능을 제공합니다.

코딩에 탁월한 GPT-5.5의 강점은 컴퓨터에서의 일상적인 업무에도 강력한 성능을 발휘하게 합니다. 모델이 의도를 더 잘 이해하기 때문에 정보 검색, 중요한 내용 파악, 도구 사용, 결과 확인, 원자재를 유용한 결과물로 전환하는 등 지식 작업의 전체 루프를 더욱 자연스럽게 진행할 수 있습니다.

코드를 작성하고 디버깅하며, 온라인에서 조사하고, 데이터를 분석하고, 문서와 스프레드시트를 생성하고, 소프트웨어를 운영하며, 작업이 완료될 때까지 도구를 넘나들 수 있습니다. 모든 단계를 세심하게 관리하는 대신, GPT-5.5에 복잡하고 여러 단계로 이루어진 작업을 맡기고 계획 수립, 도구 사용, 작업 확인, 모호성 해결, 지속적인 진행을 신뢰할 수 있습니다.

GPT-5.5, 최첨단 성능 달성

이러한 개선 사항이 실제 엔터프라이즈 워크로드에 어떻게 적용되는지 이해하기 위해, Databricks의 일상적인 문서 기반 다단계 분석 작업 벤치마크인 OfficeQA에서 GPT-5.5를 평가했습니다. 89,000페이지 분량의 미국 재무부 보고서로 구축된 OfficeQA는 모델이 문서를 검색하고, 복잡한 표를 해석하며, 실제 엔터프라이즈 데이터에 기반한 정확한 계산을 수행하는 능력을 측정합니다.

적절한 문서가 제공되었을 때(OfficeQA Pro LLM with Oracle PDF + Web Search), GPT-5.5는 64.66%의 점수를 기록하여 GPT-5.4의 57.14%보다 약 13% 향상된 수치로, 이 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 이는 검색이 이미 처리된 상태에서 모델이 수행할 수 있는 최대치를 테스트합니다.
모델이 자체적으로 올바른 문서를 찾고, 파싱하고, 답변을 계산해야 하는 전체 에이전트 워크플로우 평가(OfficeQA Pro Agent Harness)에서는 GPT-5.5가 52.63%의 점수를 기록하여 GPT-5.4의 36.10%에서 크게 향상되었습니다. 이는 오류가 46% 감소한 것으로, GPT-5.5의 성능 향상이 이론적인 것에 그치지 않고 현실적인 엔드투엔드 엔터프라이즈 워크플로우에서도 유효함을 보여줍니다.

Databricks x OfficeQA 벤치마크 차트로 GPT-5.5가 Oracle PDF 및 전체 에이전트 워크플로우 평가 모두에서 GPT-5.4보다 우수한 성능을 보여줌.

GPT-5.5가 곧 Databricks에 출시될 예정입니다. 안전하고 확장 가능한 방식으로 엔터프라이즈 데이터에 최첨단 추론 기능을 적용해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.