(원문 보기)
LLM은 모든 규모의 조직이 강력한 애플리케이션을 신속하게 구축하고 비즈니스 가치를 제공할 수 있는 엄청난 기회를 제공합니다. 과거에는 데이터 과학자가 제한된 작업을 위해 모델을 훈련하고 재훈련하는 데 수천 시간을 쏟아야 했지만, 이제는 다양한 SaaS 및 오픈 소스 모델을 활용해 훨씬 더 지능적이고 폭넓은 애플리케이션을 빠르게 구축할 수 있습니다. 데이터 과학자는 프롬프트 엔지니어링과 같은 few-shot 및 zero-shot 학습 기법을 사용하여 다양한 데이터 세트에 대한 정확도 높은 classifier, 최첨단 감성 분석 모델, 지연 시간이 짧은 문서 요약기 등을 신속하게 구축할 수 있습니다.
그러나 프로덕션에 가장 적합한 모델을 식별하고 안전하게 배포하기 위해서는 조직에 적합한 도구와 프로세스가 필요합니다. 가장 중요한 요소 중 하나는 강력한 모델 평가입니다. 할루시네이션, 욕설 답변, 프롬프트 인젝션 취약점 등과 같은 모델 품질 문제 뿐만 아니라, 많은 작업에 대한 기준 데이터 레이블이 부족하기 때문에, 데이터 과학자는 다양한 데이터에 대한 모델의 성능을 평가하는 데 매우 부지런해야 합니다. 또한 데이터 과학자는 프로덕션에 가장 적합한 모델을 선택하기 위해 여러 모델 후보 간의 미묘한 차이점을 식별할 수 있어야 합니다. 이제 그 어느 때보다 모든 모델에 대한 상세한 성능 보고서를 제공하고, 프로덕션 이전에 약점과 취약점을 식별하고, 모델 비교를 간소화하는 데 도움이 되는 LLMOps 플랫폼이 필요합니다.
이러한 요구 사항을 충족하기 위해 모델 평가를 위한 종합적인 LLMOps 도구 세트를 제공하는 MLflow 2.4를 출시하게 되어 기쁘게 생각합니다. 언어 작업을 위한 새로운 mlflow.evaluate() 통합, 여러 모델 버전에서 텍스트 출력을 비교할 수 있는 새로운 아티팩트 보기 UI, 오랫동안 기다려온 데이터 세트 추적 기능 등을 통해 MLflow 2.4는 LLM을 사용한 개발을 가속화합니다.
언어 모델에 대한 mlflow.evaluate()로 성능 인사이트 캡처
언어 모델의 성능을 평가하려면 다양한 입력 데이터 세트를 제공하고, 해당 출력을 기록하고, 도메인별 메트릭을 계산해야 합니다. MLflow 2.4에서는 이 프로세스를 획기적으로 간소화하기 위해 MLflow의 강력한 평가 API인 mlflow.evaluate()를 확장했습니다. 코드 한 줄로 텍스트 요약, 텍스트 분류, 질문 답변, 텍스트 생성 등 LLM을 사용하는 다양한 작업에 대한 모델 예측 및 성능 메트릭을 추적할 수 있습니다. 이 모든 정보는 MLflow 추적에 기록되어 여러 모델에서 성능 평가를 검사하고 비교하여 프로덕션에 가장 적합한 후보를 선택할 수 있습니다.
