Ir al contenido principal

Plataforma de Inteligencia de Datos

Nuestra perspectiva sobre cómo la IA cambiará fundamentalmente las plataformas de datos y cómo los datos cambiarán la IA empresarial

Data Intelligence Platforms

La observación de que "el software se está comiendo el mundo" ha dado forma a la industria tecnológica moderna. Hoy en día, el software es omnipresente en nuestras vidas, desde los relojes que usamos hasta nuestras casas, autos, fábricas y granjas. En Databricks, creemos que pronto, la IA se comerá todo el software. Es decir, el software desarrollado en las últimas décadas será inteligente, ya que aprovechará los datos, lo que lo hará mucho más inteligente. Las implicaciones son vastas y variadas, y afectan todo, desde la atención al cliente hasta la atención médica y la educación.

En este blog, compartimos nuestra visión sobre cómo la IA cambiará las plataformas de datos. Sostenemos que el impacto de la IA en las plataformas de datos no será incremental, sino fundamental: democratizará masivamente el acceso a los datos, automatizará la administración manual y permitirá la creación llave en mano de aplicaciones de IA personalizadas. Todo esto será posible gracias a una nueva ola de plataformas unificadas que comprenden en profundidad los datos de una organización. A esta nueva generación de sistemas la llamamos Plataformas de Inteligencia de Datos.

Plataformas de datos hasta ahora y sus desafíos

Los almacenes de datos surgieron en la década de 1980 como una solución para organizar los datos empresariales estructurados en las empresas. Sin embargo, para 2010, las organizaciones comenzaron a acumular una cantidad significativa de datos no estructurados para admitir casos de uso más variados, como la IA. Para solucionar esto, se introdujeron los lagos de datos como un sistema abierto y escalable para cualquier tipo de datos. Para 2015, se volvió común que la mayoría de las organizaciones operaran tanto almacenes de datos como lagos de datos. Sin embargo, este enfoque de doble plataforma presentó desafíos importantes en la gobernanza, la seguridad, la confiabilidad y la gestión.

Hace cinco años, Databricks fue pionero en el concepto de la lakehouse para combinar y unificar lo mejor de ambos mundos. Las lakehouses almacenan y gobiernan todos sus datos en formatos abiertos y admiten de forma nativa cargas de trabajo que van desde BI hasta IA. Por primera vez, los lakehouses ofrecieron un sistema unificado para (1) consultar todas las fuentes de datos de una organización en conjunto y (2) gobernar todas las cargas de trabajo que utilizan datos (BI, IA, etc.) de forma unificada. La lakehouse se convirtió en su propia categoría de plataforma de datos y ahora es ampliamente adoptada por las empresas e incorporada en los stacks de la mayoría de los proveedores.

A pesar del progreso, todas las plataformas de datos actuales en el mercado todavía enfrentan varios desafíos importantes:

  • Barrera de habilidades técnicas: La consulta de datos requiere habilidades especializadas en SQL, Python o BI, lo que crea una curva de aprendizaje pronunciada.
  • Precisión y curación de los datos: En las grandes organizaciones, encontrar los datos correctos y precisos es un desafío que requiere una extensa curación y planeación.
  • Complejidad de la gestión: Los costos de las plataformas de datos pueden dispararse y experimentar un bajo rendimiento si no son gestionadas por personal altamente técnico.
  • Gobernanza y privacidad: Los requisitos de gobernanza en todo el mundo están evolucionando rápidamente y, con la llegada de la IA, las preocupaciones en torno al linaje, la seguridad y la privacidad se amplifican.
  • Aplicaciones de IA emergentes: Para habilitar aplicaciones de IA generativa que respondan a solicitudes específicas del dominio, las organizaciones tienen que desarrollar y ajustar los LLM en plataformas separadas de sus datos y conectarlas a sus datos a través de ingeniería manual.

Muchos de estos problemas surgen porque las plataformas de datos no comprenden fundamentalmente los datos de las organizaciones ni cómo se utilizan. Afortunadamente, la IA generativa presenta una nueva y potente herramienta para abordar precisamente estos desafíos.

La idea central detrás de las plataformas de inteligencia de datos

Las plataformas de inteligencia de datos revolucionan la gestión de datos al emplear modelos de IA para comprender profundamente la semántica de los datos empresariales; a esto lo llamamos inteligencia de datos. Se construyen sobre la base del lakehouse —un sistema unificado para consultar y gestionar todos los datos de la empresa—, pero analizan automáticamente tanto los datos (contenidos y metadatos) como la forma en que se utilizan (consultas, informes, linaje, etc.) para agregar nuevas capacidades. A través de esta comprensión profunda de los datos, las plataformas de inteligencia de datos permiten:

  • Acceso en lenguaje natural: Aprovechando los modelos de IA, las plataformas de DI permiten trabajar con datos en lenguaje natural, adaptado a la jerga y los acrónimos de cada organización. La plataforma observa cómo se usan los datos en las cargas de trabajo existentes para aprender los términos de la organización y ofrece una interfaz de lenguaje natural personalizada a todos los usuarios, desde los no expertos hasta los ingenieros de datos.
  • Catalogación y descubrimiento semánticos: la IA generativa puede comprender el modelo de datos, las métricas y los KPI de cada organización para ofrecer funciones de descubrimiento incomparables o identificar automáticamente las discrepancias en la forma en que se utilizan los datos.
  • Gestión y optimización automatizadas: Los modelos de IA pueden optimizar el diseño de datos, la partición y la indexación según el uso de los datos, lo que reduce la necesidad de ajustes y configuración manuales.
  • Gobernanza y privacidad mejoradas: Las plataformas de DI pueden detectar, clasificar y prevenir automáticamente el uso indebido de datos confidenciales, a la vez que simplifican la gestión mediante el lenguaje natural.
  • Soporte de primera clase para cargas de trabajo de IA: Las plataformas de DI pueden mejorar cualquier aplicación de IA empresarial al permitir que se conecte a los datos de negocio pertinentes y aproveche la semántica aprendida por la plataforma de DI (métricas, KPI, etc.) para ofrecer resultados precisos. Los desarrolladores de aplicaciones de IA ya no tienen que "improvisar" la inteligencia mediante una ingeniería de prompts frágil.

Algunos podrían preguntarse en qué se diferencia esto de las capacidades de Q&A en lenguaje natural que las herramientas de BI han agregado en los últimos años. Las herramientas de BI solo representan una porción pequeña (aunque importante) de todas las cargas de trabajo de datos y, como resultado, no tienen visibilidad de la gran mayoría de las cargas de trabajo que se ejecutan, ni del linaje y los usos de los datos antes de que lleguen a la capa de BI. Sin visibilidad de estas cargas de trabajo, no pueden desarrollar la comprensión semántica profunda necesaria. Como resultado, estas capacidades de Q&A en lenguaje natural todavía no se han adoptado de forma generalizada. Con las plataformas de inteligencia de datos, las herramientas de BI podrán aprovechar los modelos de IA subyacentes para obtener una funcionalidad mucho más rica. Por lo tanto, creemos que esta funcionalidad principal residirá en las plataformas de datos.

 

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Databricks Data Intelligence Platform

En Databricks, hemos estado construyendo una plataforma de inteligencia de datos sobre el data lakehouse, y nuestro entusiasmo por las posibilidades de la IA en las plataformas de datos ha ido creciendo a medida que hemos añadido nuevas funciones. Nos basamos en las capacidades únicas existentes del lakehouse de Databricks, ya que es la única plataforma de datos de la industria con (1) una capa de gobernanza unificada para datos e IA y (2) un único motor de consultas unificado que abarca ETL, SQL, machine learning y BI. Además, hemos aprovechado la adquisición de MosaicML para generar modelos de IA en un motor de inteligencia de datos que llamamos DatabricksIQ, el cual impulsa todas las partes de nuestra plataforma.

DatabricksIQ ya impregna muchas de las capas de nuestro stack actual. Se usa para:

  • Ajustar la configuración en toda la plataforma, lo que incluye indexar columnas automáticamente, establecer particiones y fortalecer la base del lakehouse. Esto proporcionará un TCO más bajo y un mejor rendimiento para nuestros clientes.
  • Mejore la gobernanza en Unity Catalog (UC) insertando automáticamente descripciones y etiquetas de todos los activos de datos en UC. Estos luego se aprovechan para que toda la plataforma conozca la jerga, los acrónimos, las métricas y la semántica. Esto permite una mejor búsqueda semántica, una mejor calidad del asistente de IA y una mayor capacidad de gobernanza.
  • Mejorar la generación de Python y SQL en nuestro asistente de IA, que impulsa tanto text-to-SQL como text-to-Python.
  • Acelere las consultas al incorporar predicciones de datos en la planificación de nuestro motor de consultas Photon.
  • Dentro de Delta Live Tables y Serverless Jobs para proporcionar un autoescalado óptimo y minimizar el costo en función de las predicciones sobre la carga de trabajo.

Por último, y quizás más importante, creemos que las plataformas de inteligencia de datos simplificarán en gran medida el desarrollo de aplicaciones de IA empresariales. Estamos integrando DatabricksIQ directamente con nuestra plataforma de IA, Mosaic AI, para que a las empresas les resulte fácil crear aplicaciones de IA que entiendan sus datos. Mosaic AI ahora ofrece múltiples capacidades para integrar directamente los datos empresariales en los sistemas de IA, que incluyen:

  • RAG (generación aumentada por recuperación) de extremo a extremo para crear agentes conversacionales de alta calidad en sus datos personalizados, aprovechando la base de datos vectorial de Databricks como "memoria".
  • Entrenamiento de modelos personalizados, ya sea desde cero con los datos de una organización o mediante el preentrenamiento continuo de modelos existentes como MPT y Llama 2, para mejorar aún más las aplicaciones de IA con una comprensión profunda de un dominio objetivo.
  • Inferencia serverless eficiente y segura en sus datos empresariales, y conectada a la funcionalidad de gobernanza y supervisión de la calidad de Unity Catalog.
  • MLOps de extremo a extremo basado en el popular proyecto de código abierto MLflow, donde todos los datos generados son automáticamente procesables, rastreables y supervisables en el lakehouse.

Resumen

Creemos que la IA transformará todo el software, y las plataformas de datos son una de las áreas más propicias para la innovación a través de la IA. Históricamente, las plataformas de datos han sido de difícil acceso para los usuarios finales y difíciles de gestionar y gobernar para los equipos de datos. Las plataformas de inteligencia de datos están preparadas para transformar este panorama al abordar directamente ambos desafíos, lo que hace que los datos sean mucho más fáciles de consultar, gestionar y gobernar. Además, su profundo conocimiento de los datos y su uso será la base para las aplicaciones de IA empresariales que operan sobre esos datos. A medida que la IA transforma el mundo del software, creemos que los líderes de cada industria serán aquellos que aprovechen los datos y la IA a fondo para potenciar sus organizaciones. Las plataformas de DI serán una piedra angular para estas organizaciones, ya que les permitirán crear la próxima generación de aplicaciones de datos e IA con calidad, velocidad y agilidad.

Databricks founders enjoying Thanksgiving together in 2013

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks