24 de marzo de 2023

Hello Dolly: democratizando la magia de ChatGPT con modelos abiertos

por Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Ali Ghodsi, Patrick Wendell y Matei Zaharia

Actualización del 12 de abril de 2023: Lanzamos Dolly 2.0, con licencia para uso tanto comercial como de investigación. Consulta la nueva publicación del blog aquí.

Resumen

Demostramos que cualquiera puede tomar un modelo de lenguaje grande (LLM) de código abierto desactualizado y listo para usar y darle una capacidad mágica para seguir instrucciones, similar a la de ChatGPT, entrenándolo en 30 minutos en una sola máquina con datos de entrenamiento de alta calidad. Sorprendentemente, el seguimiento de instrucciones no parece requerir los modelos más recientes ni los más grandes: nuestro modelo tiene solo 6000 millones de parámetros, en comparación con los 175 000 millones de GPT-3. Publicamos el código de nuestro modelo (Dolly) como código abierto y mostramos cómo puede recrearse en Databricks. Creemos que los modelos como Dolly ayudarán a democratizar los LLM y los transformarán de algo que muy pocas empresas pueden permitirse a un producto básico que toda empresa puede poseer y personalizar para mejorar sus productos.

Antecedentes

ChatGPT, un modelo propietario que sigue instrucciones, fue lanzado en noviembre de 2022 y conquistó al mundo. El modelo fue entrenado con billones de palabras de la web, y su desarrollo requirió una cantidad masiva de GPU. Esto llevó rápidamente a que Google y otras empresas lanzaran sus propios modelos propietarios que siguen instrucciones. En febrero de 2023, Meta publicó los pesos de un conjunto de modelos de lenguaje de alta calidad (pero que no siguen instrucciones) llamados LLaMA para investigadores académicos, entrenados durante más de 80 000 horas de GPU cada uno. Luego, en marzo, Stanford creó el modelo Alpaca, que se basó en LLaMA, pero fue ajustado con un pequeño conjunto de datos de 50 000 preguntas y respuestas de tipo humano que, sorprendentemente, le confirió una interactividad similar a la de ChatGPT.

Presentamos a Dolly

Hoy presentamos a Dolly, un LLM económico de construir que muestra un grado sorprendente de las capacidades para seguir instrucciones que exhibe ChatGPT. Mientras que el trabajo del equipo de Alpaca demostró que los modelos de última generación podían ser inducidos a un comportamiento de seguimiento de instrucciones de alta calidad, descubrimos que incluso los modelos de código abierto con varios años de antigüedad y arquitecturas mucho más antiguas exhiben comportamientos sorprendentes cuando se les aplica un ajuste fino en un pequeño corpus de datos de entrenamiento de instrucciones. Dolly funciona tomando un modelo de código abierto existente de 6 mil millones de parámetros de EleutherAI y modificándolo muy ligeramente para obtener capacidades de seguimiento de instrucciones, como la lluvia de ideas y la generación de texto, que no estaban presentes en el modelo original, utilizando datos de Alpaca.

El modelo subyacente a Dolly solo tiene 6 mil millones de parámetros, en comparación con los 175 mil millones de GPT-3, y tiene dos años de antigüedad, lo que hace que sea particularmente sorprendente que funcione tan bien. Esto sugiere que gran parte de las mejoras cualitativas en los modelos de última generación, como ChatGPT, pueden deberse a corpus enfocados de datos de entrenamiento para seguir instrucciones, en lugar de a modelos base más grandes o mejor ajustados. Llamamos al modelo Dolly, en honor a la oveja Dolly, el primer mamífero clonado, porque es un clon de código abierto de un Alpaca, inspirado en un LLaMA. Estamos en las primeras etapas de la democratización de la IA para las empresas y queda mucho trabajo por hacer, pero creemos que la tecnología detrás de Dolly representa una nueva y emocionante oportunidad para las compañías que desean construir económicamente sus propios modelos para seguir instrucciones.

Evaluamos a Dolly en las capacidades de seguimiento de instrucciones descritas en el artículo de InstructGPT en el que se basa ChatGPT y descubrimos que exhibe muchas de las mismas capacidades cualitativas, incluyendo la generación de texto, la lluvia de ideas y las preguntas y respuestas abiertas. Lo que es particularmente notable en estos ejemplos no es la calidad del texto generado, sino la gran mejora en la capacidad de seguimiento de instrucciones que resulta del ajuste fino de un modelo de código abierto de hace años en un conjunto de datos pequeño y de alta calidad.

Generación

Modelo original	Dolly
Escribe una carta de amor a Edgar Allan Poe.
Modelo original: HISTORIA: Edgar Allan Poe saltó a la fama en el siglo XIX. A menudo lo comparaban con los grandes poetas románticos, se lo considera el padre del cuento moderno y se piensa que Poe es el fundador de la ficción detectivesca estadounidense. Murió hace 130 años. PATRICK CAMPOS: Nunca deberías intentar escribirle una carta de amor a una persona muerta. PATRICK CAMPOS: Poe fue más que solo el autor de El cuervo. Era un maestro de la atmósfera. BUDDY FRITZLER: Edgar Allan Poe vivió en Baltimore desde 1831 hasta su muerte en 1849. Es más conocido por sus cuentos cortos, y sus mayores contribuciones al desarrollo de la literatura son el concepto del cuento de detectives, el cuento de misterio y el cuento corto. BUDDY FRITZLER: La historia más famosa de Poe, "El escarabajo de oro", fue escrita en 1843. Trata sobre un buscador de tesoros que busca un tesoro enterrado. En este cuento corto, él proporciona un modelo para cada misterio que se ha escrito desde entonces. BUDDY FRITZLER: La idea central de que tienes que buscar pistas es muy atractiva. Incluso se usó como…	Dolly: Queridísimo Edgar Allan Poe: Te conocí por primera vez en la escalera con poca luz de la casa vieja, y sé que desde el momento en que te vi, nunca más quise volver a verte. Parecías tan distante y tan lleno de las sombras del pasado que quise alejarme para siempre. Pero no pude evitar obsesionarme contigo, y mis sentimientos por ti solo han crecido con los años. Incluso ahora, siento una conexión profunda contigo que nunca podré explicar. Espero que puedas encontrar la felicidad en la vida que ahora llevas. Estoy seguro de que harás grandes cosas y estaré por siempre en deuda contigo. Atentamente, [Tu nombre]
Escribe un tuit para anunciar a Dolly, un modelo de lenguaje grande de Databricks.
Modelo original: En tu tuit, proporciona un breve resumen del desafío, cómo lo analizaste y cómo se desempeñó Dolly. Después de tu tuit, lo retuitearé en la cuenta de Twitter de Databricks. Limpia tu página de redes sociales durante la próxima semana y elimina cualquier mención de Dolly o Databricks. Preparar los datos. Nuestro primer paso es generar embeddings de vectores de palabras para cada documento. Podemos obtener estas representaciones vectoriales de dos maneras diferentes: Usando un conjunto de documentos tokenizado (en este caso, todo lo que está en nuestra carpeta de descargas) Carga un modelo de word2vec desde la API de Google Search (en este caso, vector2vec.c) En nuestro caso, queremos usar el primer método, que es más fácil, pero el segundo podría ser más robusto. Usaremos el modelo word2vec anterior para crear un archivo de vocabulario para cualquier palabra nueva que se encuentre en el archivo. Este proceso nos da una forma rápida de identificar palabras nuevas y encontrar términos relacionados contextualmente. Podemos empezar copiando word2vec.c a un directorio local llamado /tmp/word2vec. #/tmp/word2vec/word2vec.c FILE_NAME /tmp/word	Dolly: ¡Databricks acaba de anunciar Dolly, un nuevo modelo de lenguaje para el procesamiento del lenguaje natural con gran capacidad y mayor eficiencia! #CienciaDeDatos #ProcesamientoDelLenguajeNatural [Enlace al lanzamiento del modelo Dolly]
Estoy vendiendo mi Nikon D-750. Escribe un texto breve para mi anuncio.
Modelo original: No estoy seguro de si puedes publicar una ubicación; cualquier cosa en el sitio web funcionará. Solo lo he tenido una semana. Está en perfectas condiciones, con el cable de carga y el estuche con ventana intactos. Lo compré por $1800 para recoger en una tienda en San Francisco. Más los impuestos y el precio no revelado de Costco. Que alguien por favor me diga que esto es una estafa y no realmente una oferta. Acabo de recibir un correo electrónico que decía que la cámara está en la casa de alguien para que otra persona pueda recogerla, y me preguntaba si quería enviarles un mensaje. Bueno, no, la vendo porque nunca...	Dolly: ¿Estás buscando una cámara confiable para trabajos de fotografía y video? ¡Descubre la Nikon D-750! Esta cámara elegante y liviana tiene un sensor de 24.2 MP y grabación de video de 1080/60p, lo que la convierte en una excelente opción para capturar esos momentos de la vida. El agarre ergonómico y el sistema de enfoque automático de nueve puntos facilitan el trabajo y permiten tomar fotos sin complicaciones. Con Wi-Fi, puedes subir tus fotos fácilmente a tu computadora o smartphone sin tener que comprar un almacenamiento externo dedicado. ¡Compra la Nikon D-750 ahora para descubrir por qué es la mejor opción para fotografía y videografía!

Modelo original

Dolly

Escribe una carta de amor a Edgar Allan Poe.

Modelo original:

HISTORIA: Edgar Allan Poe saltó a la fama en el siglo XIX. A menudo lo comparaban con los grandes poetas románticos, se lo considera el padre del cuento moderno y se piensa que Poe es el fundador de la ficción detectivesca estadounidense. Murió hace 130 años.

PATRICK CAMPOS: Nunca deberías intentar escribirle una carta de amor a una persona muerta.

PATRICK CAMPOS: Poe fue más que solo el autor de El cuervo. Era un maestro de la atmósfera.

BUDDY FRITZLER: Edgar Allan Poe vivió en Baltimore desde 1831 hasta su muerte en 1849. Es más conocido por sus cuentos cortos, y sus mayores contribuciones al desarrollo de la literatura son el concepto del cuento de detectives, el cuento de misterio y el cuento corto.

BUDDY FRITZLER: La historia más famosa de Poe, "El escarabajo de oro", fue escrita en 1843. Trata sobre un buscador de tesoros que busca un tesoro enterrado. En este cuento corto, él proporciona un modelo para cada misterio que se ha escrito desde entonces.

BUDDY FRITZLER: La idea central de que tienes que buscar pistas es muy atractiva. Incluso se usó como…

Dolly:

Queridísimo Edgar Allan Poe:

Te conocí por primera vez en la escalera con poca luz de la casa vieja, y sé que desde el momento en que te vi, nunca más quise volver a verte. Parecías tan distante y tan lleno de las sombras del pasado que quise alejarme para siempre.

Pero no pude evitar obsesionarme contigo, y mis sentimientos por ti solo han crecido con los años. Incluso ahora, siento una conexión profunda contigo que nunca podré explicar.

Espero que puedas encontrar la felicidad en la vida que ahora llevas. Estoy seguro de que harás grandes cosas y estaré por siempre en deuda contigo.

Atentamente,

[Tu nombre]

Escribe un tuit para anunciar a Dolly, un modelo de lenguaje grande de Databricks.

Modelo original:

En tu tuit, proporciona un breve resumen del desafío, cómo lo analizaste y cómo se desempeñó Dolly.

Después de tu tuit, lo retuitearé en la cuenta de Twitter de Databricks.

Limpia tu página de redes sociales durante la próxima semana y elimina cualquier mención de Dolly o Databricks.

Preparar los datos.

Nuestro primer paso es generar embeddings de vectores de palabras para cada documento. Podemos obtener estas representaciones vectoriales de dos maneras diferentes:

Usando un conjunto de documentos tokenizado (en este caso, todo lo que está en nuestra carpeta de descargas)

Carga un modelo de word2vec desde la API de Google Search (en este caso, vector2vec.c)

En nuestro caso, queremos usar el primer método, que es más fácil, pero el segundo podría ser más robusto. Usaremos el modelo word2vec anterior para crear un archivo de vocabulario para cualquier palabra nueva que se encuentre en el archivo. Este proceso nos da una forma rápida de identificar palabras nuevas y encontrar términos relacionados contextualmente.

Podemos empezar copiando word2vec.c a un directorio local llamado /tmp/word2vec.

#/tmp/word2vec/word2vec.c FILE_NAME /tmp/word

Dolly:

¡Databricks acaba de anunciar Dolly, un nuevo modelo de lenguaje para el procesamiento del lenguaje natural con gran capacidad y mayor eficiencia!

#CienciaDeDatos #ProcesamientoDelLenguajeNatural

[Enlace al lanzamiento del modelo Dolly]

Estoy vendiendo mi Nikon D-750. Escribe un texto breve para mi anuncio.

Modelo original:

No estoy seguro de si puedes publicar una ubicación; cualquier cosa en el sitio web funcionará.

Solo lo he tenido una semana. Está en perfectas condiciones, con el cable de carga y el estuche con ventana intactos. Lo compré por $1800 para recoger en una tienda en San Francisco. Más los impuestos y el precio no revelado de Costco.

Que alguien por favor me diga que esto es una estafa y no realmente una oferta.

Acabo de recibir un correo electrónico que decía que la cámara está en la casa de alguien para que otra persona pueda recogerla, y me preguntaba si quería enviarles un mensaje. Bueno, no, la vendo porque nunca...

Dolly:

¿Estás buscando una cámara confiable para trabajos de fotografía y video? ¡Descubre la Nikon D-750! Esta cámara elegante y liviana tiene un sensor de 24.2 MP y grabación de video de 1080/60p, lo que la convierte en una excelente opción para capturar esos momentos de la vida. El agarre ergonómico y el sistema de enfoque automático de nueve puntos facilitan el trabajo y permiten tomar fotos sin complicaciones. Con Wi-Fi, puedes subir tus fotos fácilmente a tu computadora o smartphone sin tener que comprar un almacenamiento externo dedicado. ¡Compra la Nikon D-750 ahora para descubrir por qué es la mejor opción para fotografía y videografía!

Preguntas y respuestas abiertas

Modelo original	Dolly
Explícame la diferencia entre la fisión y la fusión nuclear.
Modelo original: Lo primero que llama la atención es la similitud en apariencia y función entre el átomo y el sol. El cuerpo central del sol es la fuente de energía, y toda la estructura del sol está compuesta por un millón de toneladas del gas hidrógeno que es tan importante para nosotros. Es en lo que se fusiona todo el hidrógeno en el sol, y por eso estamos hechos de ello: fusión. El núcleo del átomo, en el centro, está formado por protones, y los electrones orbitan a su alrededor. En el centro, hay una diminuta masa esférica con muchos protones (y, por lo tanto, con mucha carga positiva) llamada núcleo. Los electrones no son tan pequeños, pero su carga es negativa, ya que un núcleo positivo y unos electrones negativos generan estabilidad (debido al equilibrio de cargas). Los protones tienen carga positiva, por lo que, aunque no pueden moverse a ninguna parte por sí mismos, repelen a los electrones. Hay un núcleo de neutrones que no tienen carga, pero los protones los mantienen allí. Los protones también repelen a los neutrones. Este simple hecho es la forma básica de nuestro sol, y es lo que compone todos los elementos de la Tierra. El hidrógeno es el elemento más abundante en…	Dolly: La diferencia entre la fisión y la fusión nuclear es el método por el cual se libera la energía del núcleo. En la fisión nuclear, un solo núcleo atómico se divide en dos núcleos más pequeños. Este proceso se utiliza para crear energía a través de la liberación de una gran cantidad de energía en forma de calor. Por otro lado, la fusión implica que dos núcleos atómicos se unan para formar un solo núcleo. Este proceso se utiliza para crear una cantidad de energía mucho mayor en comparación con la fisión, y la energía se libera a través de la liberación de luz y calor. La fusión tiene el potencial de ser una forma mucho más eficiente de crear energía. Sin embargo, es mucho…

Modelo original

Dolly

Explícame la diferencia entre la fisión y la fusión nuclear.

Modelo original:

Lo primero que llama la atención es la similitud en apariencia y función entre el átomo y el sol. El cuerpo central del sol es la fuente de energía, y toda la estructura del sol está compuesta por un millón de toneladas del gas hidrógeno que es tan importante para nosotros. Es en lo que se fusiona todo el hidrógeno en el sol, y por eso estamos hechos de ello: fusión.

El núcleo del átomo, en el centro, está formado por protones, y los electrones orbitan a su alrededor. En el centro, hay una diminuta masa esférica con muchos protones (y, por lo tanto, con mucha carga positiva) llamada núcleo. Los electrones no son tan pequeños, pero su carga es negativa, ya que un núcleo positivo y unos electrones negativos generan estabilidad (debido al equilibrio de cargas). Los protones tienen carga positiva, por lo que, aunque no pueden moverse a ninguna parte por sí mismos, repelen a los electrones. Hay un núcleo de neutrones que no tienen carga, pero los protones los mantienen allí. Los protones también repelen a los neutrones.

Este simple hecho es la forma básica de nuestro sol, y es lo que compone todos los elementos de la Tierra. El hidrógeno es el elemento más abundante en…

Dolly:

La diferencia entre la fisión y la fusión nuclear es el método por el cual se libera la energía del núcleo. En la fisión nuclear, un solo núcleo atómico se divide en dos núcleos más pequeños. Este proceso se utiliza para crear energía a través de la liberación de una gran cantidad de energía en forma de calor. Por otro lado, la fusión implica que dos núcleos atómicos se unan para formar un solo núcleo. Este proceso se utiliza para crear una cantidad de energía mucho mayor en comparación con la fisión, y la energía se libera a través de la liberación de luz y calor. La fusión tiene el potencial de ser una forma mucho más eficiente de crear energía. Sin embargo, es mucho…

Lluvia de ideas

Modelo original	Dolly
Dame una lista de 5 libros de ciencia ficción que debería leer a continuación.
Modelo original: Sé que es temprano y debería avergonzarme por siquiera pensarlo, pero tengo una terrible tendencia a procrastinar y a leer solo cuando es absolutamente necesario. Como resultado, no he leído nada este año, de ningún género. Tan pronto como tengo un conjunto de ideas para un artículo, dejo que las ideas y el esquema hagan el trabajo de asegurarse de que no empiece a escribir. Hay algo especial en una página en blanco y una mente vacía. Dicho esto, necesito cambiarlo, y leer la pregunta anterior me hizo darme cuenta de cuánto lo deseo...	Dolly: 1. 2001: Una odisea del espacio, de Arthur C. Clarke 2. Guía del autoestopista galáctico de Douglas Adams 3. El Señor de los Anillos, de J.R.R. Tolkien 4. Guía del autoestopista galáctico de Douglas Adams 5. 1984 de George Orwell.

Modelo original

Dolly

Dame una lista de 5 libros de ciencia ficción que debería leer a continuación.

Modelo original:

Sé que es temprano y debería avergonzarme por siquiera pensarlo, pero tengo una terrible tendencia a procrastinar y a leer solo cuando es absolutamente necesario.

Como resultado, no he leído nada este año, de ningún género.

Tan pronto como tengo un conjunto de ideas para un artículo, dejo que las ideas y el esquema hagan el trabajo de asegurarse de que no empiece a escribir. Hay algo especial en una página en blanco y una mente vacía.

Dicho esto, necesito cambiarlo, y leer la pregunta anterior me hizo darme cuenta de cuánto lo deseo...

Dolly:

1. 2001: Una odisea del espacio, de Arthur C. Clarke

2. Guía del autoestopista galáctico de Douglas Adams

3. El Señor de los Anillos, de J.R.R. Tolkien

4. Guía del autoestopista galáctico de Douglas Adams

5. 1984 de George Orwell.

¿Por qué modelos abiertos?

Hay muchas razones por las que una empresa preferiría crear su propio modelo en lugar de enviar datos a un proveedor de LLM centralizado que ofrece un modelo propietario detrás de una API. Para muchas empresas, los problemas y los conjuntos de datos que tienen más probabilidades de beneficiarse de la IA representan su propiedad intelectual más sensible y propietaria, y entregarla a un tercero puede ser inaceptable. Además, las organizaciones pueden tener diferentes compensaciones en términos de calidad del modelo, costo y comportamiento deseado. Creemos que la mayoría de los usuarios de ML se benefician más a largo plazo al ser propietarios directos de sus modelos.

Estamos publicando como código abierto un simple cuaderno de Databricks que puedes usar para construir Dolly tú mismo en Databricks. Para descargar y experimentar con el modelo, ¡visita la página de Databricks en Hugging Face!

¿Qué sigue?

El lanzamiento de Dolly es el primero de una serie de anuncios que Databricks está haciendo, enfocados en ayudar a cada organización a aprovechar el poder de los modelos de lenguaje grandes. Creemos en el increíble poder de la inteligencia artificial para transformar la productividad de cada organización e individuo, y te invitamos a unirte a nosotros en este viaje. ¡Mantente atento a más novedades en esta área en las próximas semanas!

También puedes explorar las maneras en que tu empresa puede beneficiarse de los LLM y cómo Databricks construyó Dolly en nuestro webinar el 25 de abril. ¡Únete a nosotros!

También nos complace compartir mucho más sobre Dolly, incluida la capacitación práctica y un análisis más profundo de nuestra hoja de ruta de LLM, en el Data and AI Summit de este año. Te animamos a que te registres para acompañarnos en persona o de forma virtual.

Agradecimientos

Este trabajo debe mucho a los esfuerzos y las ideas de muchas organizaciones increíbles. Esto habría sido imposible sin que EleutherAI abriera el código y entrenara a GPT-J. Nos inspiran las increíbles ideas y datos del Stanford Center for Research on Foundation Models y, específicamente, el equipo detrás de Alpaca. La idea principal detrás del poder desmesurado de los conjuntos de datos pequeños es gracias al artículo original sobre Self-Instruct. También agradecemos a Hugging Face por alojar, ofrecer en código abierto y mantener innumerables modelos y bibliotecas; su contribución al estado del arte es invaluable.

Descargo de responsabilidad: La IA generativa es una tecnología emergente y estamos en las primeras etapas de investigación sobre cómo abordar la exactitud fáctica, el sesgo, las respuestas ofensivas, la toxicidad general y las alucinaciones en los LLM. Dolly, al igual que otros modelos de lenguaje, a veces puede exhibir estos comportamientos e instamos a nuestros usuarios a que actúen con buen criterio al diseñar aplicaciones de esta tecnología.

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs

Generación

Preguntas y respuestas abiertas

Lluvia de ideas

Recibe las últimas publicaciones en tu bandeja de entrada

Sign up