Ir al contenido principal
Producto

Novedades de Databricks SQL

Almacenamiento de datos más sencillo, rápido y económico

por Gaurav Saraf y Kevin Clugage

Nos complace compartir las últimas funciones nuevas y mejoras de rendimiento que hacen que Databricks SQL sea más sencillo, rápido y económico que nunca. Con más de 7,000 clientes que utilizan Databricks SQL como su data warehouse en la actualidad, ¡este se ha convertido en el producto de más rápido crecimiento en nuestra historia!

El mejor data warehouse es un lakehouse

Databricks SQL está integrado en la arquitectura de lakehouse. Fuimos pioneros en este enfoque a principios de 2020 y lanzamos Databricks SQL (DBSQL) como parte de Databricks Data Intelligence Platform. Predijimos que los data warehouses independientes y separados se convertirían en sistemas heredados debido a sus altos costos y carácter propietario, y hoy vemos pruebas sólidas de que esto es cierto: el informe de MIT Technology Insights muestra que el 74% de las empresas ya han adoptado la arquitectura de lakehouse. Las numerosas plataformas de datos basadas en lakehouse disponibles para estas empresas se analizaron recientemente en Forrester Wave para Data Lakehouses, que reconoció a Databricks como Líder con las puntuaciones más altas tanto en la categoría de oferta actual como en la de estrategia en comparación con todas las demás.

Data Warehouse

En nuestras conversaciones con los clientes, la ventaja de lakehouse proviene de dos cosas: el menor costo total y una plataforma unificada para AI y BI. El lakehouse permite utilizar una sola copia de los datos, en un formato abierto, para todas sus cargas de trabajo de AI y BI. Esto elimina la duplicación y replicación de datos necesarias para mantener los datos sincronizados entre múltiples plataformas, lo que reduce drásticamente los costos y simplifica la arquitectura.

Rendimiento impulsado por AI: mejora de 4x

El año pasado, declaramos que el enfoque clásico para el rendimiento del sistema, basado en heurísticas y optimizadores de costos, ¡estaba equivocado la mayor parte del tiempo! Aunque esas técnicas eran las mejores disponibles, la era actual de la AI ha permitido un enfoque completamente nuevo. Hoy en día, utilizamos una nueva generación de sistemas de AI en todas las capas de nuestra plataforma que han llevado las mejoras de rendimiento del sistema a un nuevo nivel. Estos sistemas de AI analizan sus cargas de trabajo y mejoran la eficiencia y el rendimiento de forma automática.

  • Liquid Clustering, ahora en GA, gestiona la distribución de sus datos, eligiendo automáticamente la clave de clustering y ofreciendo la flexibilidad de redefinir las claves de clustering sin tener que volver a escribir los datos. Esto permite que la distribución de sus datos evolucione junto con las necesidades analíticas a lo largo del tiempo y reemplaza la partición de tablas y ZORDER, por lo que ya no tendrá que ajustar detalladamente la distribución de sus datos.
  • Predictive I/O, también conocido como "Indexación sin índices", le ofrece el rendimiento de los índices pero sin requerir la creación ni el mantenimiento de los mismos. Gracias a los avances en los sistemas de Databricks, ahora podemos ejecutar modelos y vectores de características de entrada con parámetros un orden de magnitud mayores sin ningún incremento perceptible en la latencia de predicción. Esto permite que Predictive I/O admita un conjunto mucho más amplio de cargas de trabajo.
  • Intelligent Workload Management utiliza modelos de machine learning para optimizar los recursos de los SQL warehouses serverless para admitir mejor la alta concurrencia. Esto es perfecto para cargas de trabajo de BI a escala cuando un gran número de analistas y consultas saturan el data warehouse. Intelligent Workload Management garantiza que estas cargas de trabajo dispongan rápidamente de la cantidad adecuada de recursos.
  • Predictive Optimization, ahora en GA, gestiona automáticamente las operaciones de mantenimiento típicas de las tablas que ayudan a optimizar el rendimiento. Databricks identificará las tablas que se beneficiarían de las operaciones de mantenimiento, como el clustering, el ajuste del tamaño de los archivos y la limpieza de archivos, y simplemente las ejecutará por usted, sin necesidad de tareas manuales.

Estos son solo algunos de nuestros sistemas de AI integrados y lo mejor de todo es que no necesita conocer los detalles de cómo funcionan: la magia ocurre de forma automática. Dado el tiempo que dedicamos a esta área, se puede decir que estamos obsesionados con el rendimiento, y con el tiempo podemos ver la diferencia que esto ha marcado. Cuando analizamos las cargas de trabajo repetitivas de nuestros clientes, ¡el rendimiento de las mismas consultas de BI ha mejorado en un 73% en comparación con hace dos años! ¡Eso es 4 veces más rápido!

Rendimiento impulsado por AI

Asistente de AI para analistas de SQL

También hemos infundido AI en nuestra experiencia de usuario, lo que hace que Databricks SQL sea más fácil de usar y más productivo para los analistas de SQL. El Asistente de AI de Databricks, ahora disponible de forma general, es un asistente de AI integrado y sensible al contexto que ayuda a los analistas de SQL a crear, editar y depurar SQL. Este asistente está integrado en el mismo motor de inteligencia de datos de nuestra plataforma, por lo que comprende el contexto único de su negocio. El asistente ha tenido una rápida adopción en Databricks debido a lo bien que puede redactar consultas o corregir errores para los analistas de SQL, lo que ahorra incontables horas de tiempo y aumenta la productividad.

Asistente de AI para analistas de SQL

Aproveche los modelos de AI directamente a través de SQL

Con el auge de los modelos de GenAI y ML, no sorprende que los analistas de SQL quieran acceder cada vez más a esos modelos de AI directamente dentro de SQL. Presentamos por primera vez las funciones de AI en Databricks SQL el año pasado exactamente por esa razón, y desde entonces hemos visto una rápida adopción. Las funciones de AI se encuentran ahora en vista previa pública y también hemos añadido nuevas funciones como la búsqueda vectorial. Las funciones de AI abstraen las complejidades técnicas del uso de LLM, lo que permite a los analistas y científicos de datos utilizar estos modelos sin esfuerzo, sin tener que preocuparse por la infraestructura subyacente.

  1. La función ai_query() le permite consultar cualquier modelo de AI desde SQL. Estos pueden ser modelos de GenAI o modelos clásicos de ML. Incluso puede utilizar modelos de LLM externos

  2. Funciones de LLM integradas
    También hay 9 nuevas funciones de GenAI que le permiten analizar texto no estructurado con el poder de los LLM. Por ejemplo:

    Extraer información importante del texto que está presente en la columna de una tabla:

    Clasificar los comentarios de las reseñas de un producto en función del contenido:

    Consulte las 9 funciones aquí

  3. AI Search: ¡La nueva función de búsqueda vectorial le permite realizar búsquedas de KNN y facilita el uso directo de RAG! Esto utiliza el producto AI Search de Databricks. Al combinar las capacidades de búsqueda vectorial y las capacidades de AI_query, los analistas de SQL ahora pueden ejecutar análisis complejos fácilmente. Por ejemplo, ahora se pueden buscar todos los tweets

  4. AI_Forecast: una nueva función integrada de pronóstico de series temporales para que puedas pronosticar métricas (por ejemplo, ingresos) rápidamente a través de SQL sin necesidad de crear un modelo de ML personalizado.

AI/BI: un nuevo tipo de producto de inteligencia de negocios (BI)

Con el objetivo de democratizar verdaderamente la obtención de información a partir de los datos, también presentamos Databricks AI/BI, un producto de inteligencia de negocios que aprovecha la AI generativa para comprender profundamente la semántica de los datos y permitir el análisis de datos de autoservicio para todos en tu organización. Desarrollado sobre un sistema de AI compuesto, AI/BI aprovecha la información de todo tu patrimonio de datos, incluidos los metadatos de Unity Catalog, las canalizaciones de ETL, las consultas SQL y más. Cuenta con dos componentes principales: AI/BI Dashboards, una oferta de BI de código bajo para crear rápidamente visualizaciones de datos y paneles, y Genie, una interfaz conversacional para tus datos que aprende continuamente de los comentarios de los usuarios para responder a una amplia gama de preguntas comerciales del mundo real sin alucinaciones. Estas innovaciones mejoran significativamente el análisis de autoservicio dentro de Databricks SQL, lo que permite el acceso a una gama más amplia de usuarios no técnicos al tiempo que garantiza una gobernanza unificada, el seguimiento del linaje, el uso compartido seguro y un alto rendimiento a través de la integración con tu Data Intelligence Platform.

Almacenamiento de datos completo y de extremo a extremo con Databricks SQL

Además de las nuevas funciones de AI, también hemos lanzado una serie de capacidades principales de SQL Warehouse. Miles de clientes han migrado sus almacenes de datos heredados a DBSQL. Para hacer posibles esas migraciones, nos aseguramos de que DBSQL tuviera todas las funciones para proporcionar las mismas capacidades de almacenamiento de datos en el lakehouse:

  1. Vistas materializadas: garantiza la frescura de los datos utilizando MVs para potenciar tus paneles. Las vistas materializadas se actualizan automáticamente cuando las tablas subyacentes tienen datos nuevos, en lugar de cuando se realizan consultas.
  2. Usa restricciones de PK/FK para optimizar el rendimiento de las consultas. Al usar RELY, las consultas se pueden acelerar eliminando uniones redundantes y agregaciones distintas de forma automática.
  3. Variant es un nuevo tipo de datos para procesar datos semiestructurados que ofrece un aumento significativo del rendimiento en comparación con el almacenamiento de datos como cadenas JSON, al tiempo que proporciona la flexibilidad para admitir esquemas altamente anidados y en evolución.
  4. Alias de columnas laterales facilitan la escritura de SQL al permitir hacer referencia y reutilizar una expresión especificada anteriormente en la misma consulta. Esto puede ayudar a simplificar las consultas al reducir las CTE o subconsultas innecesarias.
  5. Funciones como variables de SQL, argumentos con nombre y UDF de Python también facilitan la creación de scripts directamente en Databricks SQL.

No lo olvides, todo esto funciona en un excelente editor de SQL impulsado por AI y en una herramienta de creación de paneles integrada.

Además, gracias a nuestros excelentes socios, también contamos con un ecosistema rico, abierto e integrado de tus herramientas de datos y AI favoritas, como Power BI, Tableau y dbt. Es casi seguro que cualquier herramienta que utilices hoy en día ya funcione con DBSQL.

DBSQL

Obtén más información y comienza a utilizar Databricks SQL

Para obtener más información sobre lo último en almacenamiento de datos y Databricks SQL, consulta la conferencia principal de Data Warehouse de Data + AI Summit, junto con las numerosas sesiones del track de Almacenamiento de datos, Analítica y BI.

Si deseas migrar tu almacén de datos existente a un almacén de datos serverless de alto rendimiento, con una excelente experiencia de usuario y un costo total menor, entonces Databricks SQL es la solución: pruébalo gratis.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.