La observación de que "el software se está comiendo el mundo" ha dado forma a la industria tecnológica moderna. Hoy en día, el software es omnipresente en nuestras vidas, desde los relojes que usamos hasta nuestras casas, autos, fábricas y granjas. En Databricks, creemos que pronto, la IA se comerá todo el software. Es decir, el software desarrollado en las últimas décadas será inteligente, ya que aprovechará los datos, lo que lo hará mucho más inteligente. Las implicaciones son vastas y variadas, y afectan todo, desde la atención al cliente hasta la atención médica y la educación.
En este blog, compartimos nuestra visión sobre cómo la IA cambiará las plataformas de datos. Sostenemos que el impacto de la IA en las plataformas de datos no será incremental, sino fundamental: democratizará masivamente el acceso a los datos, automatizará la administración manual y permitirá la creación llave en mano de aplicaciones de IA personalizadas. Todo esto será posible gracias a una nueva ola de plataformas unificadas que comprenden en profundidad los datos de una organización. A esta nueva generación de sistemas la llamamos Plataformas de Inteligencia de Datos.
Plataformas de datos hasta ahora y sus desafíos
Los almacenes de datos surgieron en la década de 1980 como una solución para organizar los datos empresariales estructurados en las empresas. Sin embargo, para 2010, las organizaciones comenzaron a acumular una cantidad significativa de datos no estructurados para admitir casos de uso más variados, como la IA. Para solucionar esto, se introdujeron los lagos de datos como un sistema abierto y escalable para cualquier tipo de datos. Para 2015, se volvió común que la mayoría de las organizaciones operaran tanto almacenes de datos como lagos de datos. Sin embargo, este enfoque de doble plataforma presentó desafíos importantes en la gobernanza, la seguridad, la confiabilidad y la gestión.
Hace cinco años, Databricks fue pionero en el concepto de la lakehouse para combinar y unificar lo mejor de ambos mundos. Las lakehouses almacenan y gobiernan todos sus datos en formatos abiertos y admiten de forma nativa cargas de trabajo que van desde BI hasta IA. Por primera vez, los lakehouses ofrecieron un sistema unificado para (1) consultar todas las fuentes de datos de una organización en conjunto y (2) gobernar todas las cargas de trabajo que utilizan datos (BI, IA, etc.) de forma unificada. La lakehouse se convirtió en su propia categoría de plataforma de datos y ahora es ampliamente adoptada por las empresas e incorporada en los stacks de la mayoría de los proveedores.
A pesar del progreso, todas las plataformas de datos actuales en el mercado todavía enfrentan varios desafíos importantes:
- Barrera de habilidades técnicas: La consulta de datos requiere habilidades especializadas en SQL, Python o BI, lo que crea una curva de aprendizaje pronunciada.
- Precisión y curación de los datos: En las grandes organizaciones, encontrar los datos correctos y precisos es un desafío que requiere una extensa curación y planeación.
- Complejidad de la gestión: Los costos de las plataformas de datos pueden dispararse y experimentar un bajo rendimiento si no son gestionadas por personal altamente técnico.
- Gobernanza y privacidad: Los requisitos de gobernanza en todo el mundo están evolucionando rápidamente y, con la llegada de la IA, las preocupaciones en torno al linaje, la seguridad y la privacidad se amplifican.
- Aplicaciones de IA emergentes: Para habilitar aplicaciones de IA generativa que respondan a solicitudes específicas del dominio, las organizaciones tienen que desarrollar y ajustar los LLM en plataformas separadas de sus datos y conectarlas a sus datos a través de ingeniería manual.
Muchos de estos problemas surgen porque las plataformas de datos no comprenden fundamentalmente los datos de las organizaciones ni cómo se utilizan. Afortunadamente, la IA generativa presenta una nueva y potente herramienta para abordar precisamente estos desafíos.
La idea central detrás de las plataformas de inteligencia de datos
Las plataformas de inteligencia de datos revolucionan la gestión de datos al emplear modelos de IA para comprender profundamente la semántica de los datos empresariales; a esto lo llamamos inteligencia de datos. Se construyen sobre la base del lakehouse —un sistema unificado para consultar y gestionar todos los datos de la empresa—, pero analizan automáticamente tanto los datos (contenidos y metadatos) como la forma en que se utilizan (consultas, informes, linaje, etc.) para agregar nuevas capacidades. A través de esta comprensión profunda de los datos, las plataformas de inteligencia de datos permiten:
- Acceso en lenguaje natural: Aprovechando los modelos de IA, las plataformas de DI permiten trabajar con datos en lenguaje natural, adaptado a la jerga y los acrónimos de cada organización. La plataforma observa cómo se usan los datos en las cargas de trabajo existentes para aprender los términos de la organización y ofrece una interfaz de lenguaje natural personalizada a todos los usuarios, desde los no expertos hasta los ingenieros de datos.
- Catalogación y descubrimiento semánticos: la IA generativa puede comprender el modelo de datos, las métricas y los KPI de cada organización para ofrecer funciones de descubrimiento incomparables o identificar automáticamente las discrepancias en la forma en que se utilizan los datos.
- Gestión y optimización automatizadas: Los modelos de IA pueden optimizar el diseño de datos, la partición y la indexación según el uso de los datos, lo que reduce la necesidad de ajustes y configuración manuales.
- Gobernanza y privacidad mejoradas: Las plataformas de DI pueden detectar, clasificar y prevenir automáticamente el uso indebido de datos confidenciales, a la vez que simplifican la gestión mediante el lenguaje natural.
- Soporte de primera clase para cargas de trabajo de IA: Las plataformas de DI pueden mejorar cualquier aplicación de IA empresarial al permitir que se conecte a los datos de negocio pertinentes y aproveche la semántica aprendida por la plataforma de DI (métricas, KPI, etc.) para ofrecer resultados precisos. Los desarrolladores de aplicaciones de IA ya no tienen que "improvisar" la inteligencia mediante una ingeniería de prompts frágil.
Algunos podrían preguntarse en qué se diferencia esto de las capacidades de Q&A en lenguaje natural que las herramientas de BI han agregado en los últimos años. Las herramientas de BI solo representan una porción pequeña (aunque importante) de todas las cargas de trabajo de datos y, como resultado, no tienen visibilidad de la gran mayoría de las cargas de trabajo que se ejecutan, ni del linaje y los usos de los datos antes de que lleguen a la capa de BI. Sin visibilidad de estas cargas de trabajo, no pueden desarrollar la comprensión semántica profunda necesaria. Como resultado, estas capacidades de Q&A en lenguaje natural todavía no se han adoptado de forma generalizada. Con las plataformas de inteligencia de datos, las herramientas de BI podrán aprovechar los modelos de IA subyacentes para obtener una funcionalidad mucho más rica. Por lo tanto, creemos que esta funcionalidad principal residirá en las plataformas de datos.



