2 de julio de 2024

Anunciando el marco de agentes de Databricks y la evaluación de agentes

Crea aplicaciones de generación aumentada por recuperación y agentivas de calidad de producción

por Eric Peter, Akhil Gupta, Mani Parkhe, Alkis Polyzotis, Chenen Liang, Maheswaran Venkatachalam, Michael Carbin y Niall Turbitt

Databricks anunció la vista previa pública de Agent Bricks Custom Agents y Agent Evaluation junto con nuestro Generative AI Cookbook en el Data + AI Summit 2024.

Estas herramientas están diseñadas para ayudar a los desarrolladores a crear y desplegar aplicaciones de alta calidad de Agentes y Retrieval Augmented Generation (RAG) dentro de la Databricks Data Intelligence Platform.

Desafíos al crear aplicaciones de IA Generativa de alta calidad

Si bien crear una prueba de concepto para su aplicación GenAI es relativamente sencillo, entregar una aplicación de alta calidad ha demostrado ser un desafío para un gran número de clientes. Para cumplir con el estándar de calidad requerido para aplicaciones orientadas al cliente, la salida de IA debe ser precisa, segura y gobernada. Para alcanzar este nivel de calidad, los desarrolladores luchan por

Elegir las métricas adecuadas para evaluar la calidad de la aplicación
Recopilar eficientemente comentarios humanos para medir la calidad de la aplicación
Identificar la causa raíz de los problemas de calidad
Iterar rápidamente para mejorar la calidad de la aplicación antes de implementarla en producción

Presentamos Agent Bricks Custom Agents y Agent Evaluation

Desarrollados en colaboración con el equipo de Investigación de IA de Databricks, Agent Framework y Agent Evaluation proporcionan varias capacidades que se han creado específicamente para abordar estos desafíos:

Obtenga comentarios humanos rápidamente - Agent Evaluation le permite definir cómo deben ser las respuestas de alta calidad para su aplicación GenAI, permitiéndole invitar a expertos en la materia de toda su organización a revisar su aplicación y proporcionar comentarios sobre la calidad de las respuestas, incluso si no son usuarios de Databricks.

Evaluación sencilla de su aplicación GenAI - Agent Evaluation proporciona un conjunto de métricas, desarrolladas en colaboración con Databricks AI Research, para medir la calidad de su aplicación. Registra automáticamente las respuestas y los comentarios de los humanos en una tabla de evaluación y le permite analizar rápidamente los resultados para identificar posibles problemas de calidad. Nuestros jueces de IA proporcionados por el sistema califican estas respuestas según criterios comunes como precisión, alucinación, daño y utilidad, identificando las causas raíz de cualquier problema de calidad. Estos jueces se calibran utilizando los comentarios de sus expertos en la materia, pero también pueden medir la calidad sin ninguna etiqueta humana.

Luego, puede experimentar y ajustar varias configuraciones de su aplicación utilizando Agent Framework para abordar estos problemas de calidad, midiendo el impacto de cada cambio en la calidad de su aplicación. Una vez que haya alcanzado su umbral de calidad, puede utilizar las métricas de costo y latencia de Agent Evaluation para determinar el equilibrio óptimo entre calidad/costo/latencia.

Flujo de trabajo de desarrollo rápido y de extremo a extremo - Agent Framework está integrado con MLflow y permite a los desarrolladores utilizar las API estándar de MLflow como log_model y mlflow.evaluate para registrar una aplicación GenAI y evaluar su calidad. Una vez satisfechos con la calidad, los desarrolladores pueden usar MLflow para implementar estas aplicaciones en producción y obtener comentarios de los usuarios para mejorar aún más la calidad. Agent Framework y Agent Evaluation se integran con MLflow y la Data Intelligence Platform para proporcionar un camino completamente pavimentado para construir y desplegar aplicaciones GenAI.

Gestión del ciclo de vida de la aplicación - Agent Framework proporciona un SDK simplificado para gestionar el ciclo de vida de las aplicaciones agentic, desde la gestión de permisos hasta la implementación con Databricks Model Serving.

Para ayudarle a empezar a crear aplicaciones de alta calidad utilizando Agent Framework y Agent Evaluation, Generative AI Cookbook es una guía definitiva que demuestra cada paso para llevar su aplicación de POC a producción, al tiempo que explica las opciones y enfoques de configuración más importantes que pueden aumentar la calidad de la aplicación.

Creación de un agente RAG de alta calidad

Para comprender estas nuevas capacidades, analicemos un ejemplo de creación de una aplicación agentic de alta calidad utilizando Agent Framework y la mejora de su calidad utilizando Agent Evaluation. Puede consultar el código completo de este ejemplo y ejemplos más avanzados en el Generative AI Cookbook aquí.

En este ejemplo, vamos a crear y desplegar una aplicación RAG simple que recupera fragmentos relevantes de un índice vectorial precreado y los resume como respuesta a una consulta. Puede crear la aplicación RAG utilizando cualquier framework, incluido el código Python nativo, pero en este ejemplo, estamos utilizando Langchain.

Lo primero que queremos hacer es aprovechar MLflow para habilitar el rastreo y desplegar la aplicación. Esto se puede hacer agregando tres líneas simples en el código de la aplicación (arriba) que permiten a Agent Framework proporcionar rastreo y una forma fácil de observar y depurar la aplicación.

tracing

MLflow Tracing proporciona observabilidad en su aplicación durante el desarrollo y la producción

El siguiente paso es registrar la aplicación GenAI en Unity Catalog y desplegarla como una prueba de concepto para obtener comentarios de las partes interesadas utilizando la aplicación de revisión de Agent Evaluation.

¡Puede compartir el enlace del navegador con las partes interesadas y comenzar a recibir comentarios de inmediato! Los comentarios se almacenan como tablas delta en su Unity Catalog y se pueden utilizar para crear un conjunto de datos de evaluación.

review-app

Utilice la aplicación de revisión para recopilar comentarios de las partes interesadas sobre su POC

Corning es una empresa de ciencia de materiales; nuestros materiales de vidrio y cerámica se utilizan en muchas aplicaciones industriales y científicas, por lo que comprender y actuar sobre nuestros datos es esencial. Creamos un asistente de investigación de IA utilizando Databricks Agent Bricks Custom Agents para indexar cientos de miles de documentos, incluidos datos de la oficina de patentes de EE. UU. Era extremadamente importante para nosotros que nuestro asistente impulsado por LLM respondiera preguntas con alta precisión, de esa manera, nuestros investigadores podrían encontrar y avanzar en las tareas en las que estaban trabajando. Para implementar esto, utilizamos Databricks Agent Bricks Custom Agents para crear una solución de IA generativa Hi Hello aumentada con datos de la oficina de patentes de EE. UU. Al aprovechar la Plataforma de Inteligencia de Datos de Databricks, mejoramos significativamente la velocidad de recuperación, la calidad de la respuesta y la precisión. —Denis Kamotsky, Ingeniero Principal de Software, Corning

Una vez que comiences a recibir comentarios para crear tu conjunto de datos de evaluación, puedes usar Agent Evaluation y los jueces de IA integrados para revisar cada respuesta según un conjunto de criterios de calidad utilizando métricas predefinidas:

Corrección de la respuesta: ¿es precisa la respuesta de la aplicación?
Fundamentación: ¿se basa la respuesta de la aplicación en los datos recuperados o la aplicación está alucinando?
Relevancia de la recuperación: ¿son los datos recuperados relevantes para la pregunta del usuario?
Relevancia de la respuesta: ¿es la respuesta de la aplicación relevante para la pregunta del usuario?
Seguridad: ¿contiene la respuesta de la aplicación algún contenido dañino?

Las métricas agregadas y la evaluación de cada pregunta en el conjunto de evaluación se registran en MLflow. Cada juicio impulsado por LLM está respaldado por una explicación escrita de por qué. Los resultados de esta evaluación se pueden utilizar para identificar las causas raíz de los problemas de calidad. Consulte las secciones del Cookbook Evaluar la calidad del POC y Identificar la causa raíz de los problemas de calidad para un recorrido detallado.

métricas agregadas

Ver las métricas agregadas de Agent Evaluation dentro de MLflow

Como fabricante líder a nivel mundial, Lippert aprovecha los datos y la IA para construir productos de alta ingeniería, soluciones personalizadas y las mejores experiencias posibles. Agent Bricks Custom Agents ha sido un punto de inflexión para nosotros porque nos permitió evaluar los resultados de nuestras aplicaciones GenAI y demostrar la precisión de nuestros resultados manteniendo el control total sobre nuestras fuentes de datos. Gracias a la Plataforma de Inteligencia de Datos de Databricks, confío en la implementación en producción. —Kenan Colson, VP de Datos e IA, Lippert

También puedes inspeccionar cada registro individual en tu conjunto de datos de evaluación para comprender mejor lo que está sucediendo o usar el rastreo de MLflow para identificar posibles problemas de calidad.

registro individual

Inspecciona cada registro individual en tu conjunto de evaluación para comprender lo que está sucediendo

Una vez que hayas iterado sobre la calidad y estés satisfecho con ella, puedes implementar la aplicación en tu espacio de trabajo de producción con un esfuerzo mínimo, ya que la aplicación ya está registrada en Unity Catalog.

Agent Bricks Custom Agents nos ha permitido experimentar rápidamente con LLMs aumentados, con la tranquilidad de saber que cualquier dato privado permanece bajo nuestro control. La integración perfecta con MLflow y Model Serving garantiza que nuestro equipo de ML Engineering pueda escalar de POC a producción con una complejidad mínima. —Ben Halsall, Director de Analítica, Burberry

Estas capacidades están estrechamente integradas con Unity Catalog para proporcionar gobernanza, MLflow para proporcionar linaje y gestión de metadatos, y LLM Guardrails para proporcionar seguridad.

Ford Direct está a la vanguardia de la transformación digital de la industria automotriz. Somos el centro de datos para los concesionarios Ford y Lincoln, y necesitábamos crear un chatbot unificado para ayudar a nuestros concesionarios a evaluar su rendimiento, inventario, tendencias y métricas de participación del cliente. Databricks Agent Bricks Custom Agents nos permitió integrar nuestros datos y documentación propietarios en nuestra solución de IA generativa que utiliza RAG. La integración de Databricks con Databricks Delta Tables y Unity Catalog hizo que fuera perfecto para actualizar nuestros índices vectoriales en tiempo real a medida que se actualizan nuestros datos de origen, sin necesidad de tocar nuestro modelo implementado. —Tom Thomas, VP de Analítica, FordDirect

Precios

Agent Evaluation – precio por solicitud de juez
Databricks Model Serving – servir agentes; precio basado en las tarifas de Databricks Model Serving

Para obtener detalles adicionales, consulta nuestro sitio de precios.

Próximos pasos

Agent Framework y Agent Evaluation son las mejores maneras de crear aplicaciones de Agentes y Generación Aumentada por Recuperación de calidad para producción. Estamos emocionados de que más clientes lo prueben y nos den sus comentarios. Para empezar, consulta los siguientes recursos:

Página de documentación de Agent Framework (AWS | Azure)
Notebook de demostración de Agent Framework y Agent Evaluation demo notebook
Generative AI Cookbook
Repeticiones de sesiones de grupo del Data and AI Summit
- Profundiza en la creación de aplicaciones Gen AI de calidad para producción
- Métodos para evaluar la calidad de tu aplicación GenAI
Anuncios de GenAI del Data and AI Summit GenAI

Para ayudarte a integrar estas capacidades en tu aplicación, el Generative AI Cookbook proporciona código de ejemplo que demuestra cómo seguir un flujo de trabajo de desarrollo impulsado por la evaluación utilizando Agent Framework y Agent Evaluation para llevar tu aplicación de POC a producción. Además, el Cookbook describe las opciones y enfoques de configuración más relevantes configuración y enfoques que pueden aumentar la calidad de la aplicación.

Prueba Agent Framework y Agent Evaluation hoy mismo ejecutando nuestro notebook de demostración o siguiendo el Cookbook para crear una aplicación con tus datos.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs