En los últimos meses, el interés en los Modelos de Lenguaje Grandes (LLM) por parte de las agencias del sector público se ha disparado, ya que los LLM están cambiando fundamentalmente las expectativas que la gente tiene en sus interacciones con las computadoras y los datos. Desde el punto de vista de Databricks, prácticamente todos los clientes y prospectos del sector público con los que interactuamos sienten el mandato de incorporar los LLM a su misión. Constantemente recibimos preguntas sobre qué son los LLM (como Dolly de Databricks), para qué se pueden usar y cómo Databricks Lakehouse dará soporte a las aplicaciones relacionadas con los LLM. En esta publicación, abordaremos estas preguntas en el contexto de las necesidades, oportunidades y limitaciones únicas de las organizaciones del sector público. También nos centraremos en los beneficios de crear, tener y curar su propio LLM frente a la adopción de una tecnología que requiere el intercambio de datos con terceros, como ChatGPT.
Los LLM actuales representan la última versión de una serie de innovaciones en el procesamiento del lenguaje natural, que comenzaron aproximadamente en 2017 con el auge de la arquitectura del modelo transformer. Estos modelos basados en transformers han poseído durante mucho tiempo capacidades asombrosas para comprender el lenguaje humano lo suficientemente bien como para realizar tareas como identificar sentimientos, extraer nombres de personas, lugares y cosas, y traducir documentos de un idioma a otro. También han sido capaces de generar texto interesante a partir de un prompt, con diversos grados de calidad y precisión. Más recientemente, los investigadores y desarrolladores han descubierto que los modelos de lenguaje muy grandes, "preentrenados" en fuentes de texto muy grandes y diversas, pueden ser "ajustados" para seguir una variedad de instrucciones de un humano para generar información útil.
Anteriormente, la mejor práctica era entrenar modelos separados para cada tarea relacionada con el lenguaje. El proceso de entrenamiento de modelos requería recursos: datos curados, capacidad de cómputo (generalmente, una o más GPU) y conocimientos avanzados en ciencia de datos y desarrollo de software. Si bien dichos modelos pueden ser muy precisos, existen claras limitaciones de recursos, tanto en términos de computación como de esfuerzo humano, al ampliar su uso. Con el rápido ascenso de ChatGPT al estrellato, ahora vemos que un único LLM, con la cantidad adecuada de contexto y el prompt correcto, se puede usar para realizar muchas tareas diferentes, a veces con mayor precisión que un modelo más especializado. Y la capacidad de los LLM para generar texto nuevo ("IA generativa") es fascinante y extremadamente útil.
Las organizaciones del sector privado han informado de increíbles beneficios de los LLM, como la generación y migración de código, la categorización y respuesta automatizada a los comentarios de los clientes, los chatbots de los centros de llamadas, la generación de informes y mucho más. Como microcosmos de muchas industrias diferentes, las agencias del sector público tienen las mismas oportunidades con los LLM, además de otras necesidades únicas. Los casos de uso comunes del sector público incluyen:
Aunque ciertamente son potentes, los LLM también introducen un nuevo conjunto de desafíos que se ven amplificados por algunas de las limitaciones operativas propias de las organizaciones del sector público. Analicemos algunas de ellas y alineémoslas con las capacidades de Databricks Lakehouse:
La mayoría de las organizaciones del sector público tienen estrictos controles normativos sobre sus datos. Estos controles existen para la privacidad, la seguridad y la necesidad de mantener la confidencialidad en algunos casos. Incluso la sencilla tarea de hacer una o varias preguntas a un LLM podría revelar información confidencial. Además, la mayoría de las agencias federales necesitarán ajustar los LLM para satisfacer sus requisitos particulares. Por estas razones, es lógico suponer que las agencias del sector público verán limitado su uso de modelos públicos. Es probable que requieran que los modelos se ajusten en un entorno que garantice su confidencialidad y seguridad, y que las interacciones con los modelos a través de diversos métodos de consulta (prompting) también sean confidenciales.
La plataforma Lakehouse de Databricks tiene las herramientas necesarias para desarrollar e implementar aplicaciones de LLM de extremo a extremo. (Hablaremos de eso más adelante). Además, Databricks posee las certificaciones necesarias para procesar datos para la gran mayoría de las organizaciones del sector público de EE. UU. Databricks es un socio confiable y capaz para las organizaciones que buscan aprovechar todo el poder de los LLM sin los riesgos que conlleva el uso de LLM patentados como servicio, como ChatGPT o Bard.
Más allá de Databricks, la industria está viendo cada vez más evidencia de que los LLM de código abierto, si se usan de forma adecuada, pueden ofrecer resultados que se acercan a la paridad con los principales LLM propietarios. La evidencia es más sólida en los casos de uso en los que los LLM propietarios deben comprender instrucciones o contextos con matices para los que no han sido entrenados previamente. En estos casos, a los LLM de código abierto se les pueden dar instrucciones o se los puede ajustar con datos específicos de la organización para ofrecer resultados asombrosos. En esta arquitectura de soluciones, las organizaciones pueden lograr resultados de primer nivel con cantidades modestas de tiempo de computación y desarrollo, sin que los datos salgan de los límites aprobados. Para las organizaciones del sector público, esto representa una ventaja significativa que no se puede pasar por alto.

La creencia de Databricks en el poder de los LLM de código abierto se refuerza con el lanzamiento de Dolly 2.0, el primer LLM de código abierto que sigue instrucciones, ajustado con un conjunto de datos de instrucciones generado por humanos y con licencia para la investigación y el uso comercial. Al lanzamiento de Dolly le ha seguido una ola de otros LLM de código abierto muy capaces, algunos de los cuales tienen un rendimiento muy impresionante. Databricks se esfuerza por ofrecer a las organizaciones del sector público una plataforma para crear aplicaciones con el LLM de su elección, ya sea de código abierto o comercial, y estamos entusiasmados por lo que está por venir.

La modernización del patrimonio de datos sigue siendo una de las principales prioridades para la mayoría de los líderes técnicos del sector público. Atrás quedaron los días de los data warehouses on-premise, que suelen ser reemplazados por un data warehouse o un lakehouse en la nube. Las organizaciones que aún no han migrado a la nube, o que optaron por un almacén de datos en la nube, ahora se enfrentan a otro punto de inflexión: ¿cómo adoptar los LLM en una arquitectura que no los admite? Dado el inmenso potencial de los LLM para impactar las misiones de las agencias y a los servidores públicos que las cumplen, es fundamental establecer una arquitectura preparada para el futuro. Presentamos el lakehouse.
Databricks ha sido desde hace mucho tiempo un entorno capaz para las cargas de trabajo de machine learning (ML) e inteligencia artificial (IA). Los clientes han estado usando LLM de nivel de producción y sus predecesores en Databricks durante años, aprovechando características como:
Ninguna de estas características se ofrece en un data warehouse, ni siquiera en la nube. Para usar los LLM junto con un data warehouse, una organización necesitaría adquirir otros servicios de software para todos los aspectos de los procesos de entrenamiento e implementación de modelos, y enviar datos de ida y vuelta entre estos servicios. Solo la arquitectura Lakehouse de Databricks ofrece la simplicidad arquitectónica de realizar todas las operaciones de LLM en una única plataforma, lo que permite aprovechar al máximo los beneficios explicados anteriormente en nuestro análisis sobre la soberanía de los datos.
En el Data and AI Summit 2023, Databricks presentó Lakehouse AI, que agrega varias características nuevas e importantes relacionadas con los LLM que simplifican significativamente la arquitectura para LLMOps, entre las que se incluyen:

Las agencias gubernamentales han luchado con una persistente "fuga de cerebros" en los últimos años, particularmente en roles que se superponen con las tendencias tecnológicas en auge, como la ciberseguridad, la computación en la nube y el ML/AI. El intenso enfoque actual en los LLM está impulsando aún más la demanda de profesionales con talento en ML/AI. Inevitablemente, el atractivo y los beneficios que conlleva el empleo en las grandes empresas tecnológicas y el ecosistema de las startups exacerbarán la escasez de talento en el sector público. Los líderes gubernamentales necesitan acceso a plataformas y alianzas que los ayuden a adoptar fácilmente los LLM y a empoderar a sus empleados para que se vuelvan autosuficientes con ellos.
Databricks está implementando funciones que simplifican y amplían las capacidades existentes para trabajar con los LLM en la plataforma lakehouse. Estas incluyen:

Además de facilitar el uso de los LLM en Databricks, también presentamos programas de capacitación y habilitación de LLM para ayudar a las organizaciones a ampliar su dominio de los LLM. Estos se ofrecen a un nivel accesible para los usuarios del sector público de Databricks.
Abundan las oportunidades para aprovechar los LLM y acelerar los casos de uso del sector público. Un valor inmenso permanece oculto en los datos heredados, esperando a ser descubierto y aplicado a los problemas actuales. Descubra cómo Databricks puede ayudarlo a adoptar los LLM para su misión participando en nuestro webinar Modelos de lenguaje grandes en el sector público el 2 de agosto al mediodía, EDT. Además, consulte los registros para las vistas previas de características que figuran en el anuncio de Lakehouse AI y vea para cuáles califica su organización.
Setor público
June 4, 2025/3 min de leitura
Setores
January 21, 2026/11 min de leitura


