6 de junio de 2025

Anuncio de puntos de conexión optimizados para almacenamiento para Búsqueda Vectorial

Escala de miles de millones de vectores, 7 veces menos coste

Presentamos la Búsqueda Vectorial optimizada para almacenamiento: Escala de miles de millones de vectores, hasta 7 veces menos coste, indexación 20 veces más rápida, filtrado familiar similar a SQL.
Desbloquee más valor de los datos no estructurados para IA: Cree sistemas RAG, de resolución de entidades y de búsqueda semántica de alto rendimiento en documentos, imágenes y más.
Preparado para empresas y fácil de adoptar: Respaldado por la gobernanza de Unity Catalog e integrado con herramientas como AI Playground para una rápida creación de prototipos de RAG y políticas de presupuesto para la gestión de costes.

La mayoría de las empresas disponen de una gran cantidad de datos no estructurados —documentos, imágenes, audio, vídeo— y, sin embargo, solo una fracción se convierte en información útil. Las aplicaciones impulsadas por IA, como la generación aumentada por recuperación (RAG), la resolución de entidades, los motores de recomendación y la búsqueda por intención, pueden cambiar eso, pero rápidamente se encuentran con barreras conocidas: límites de capacidad difíciles, costes crecientes y una indexación lenta.

Hoy, anunciamos la Vista Previa Pública de puntos de conexión optimizados para almacenamiento para Databricks AI Search, nuestro nuevo motor de Búsqueda Vectorial, diseñado específicamente para datos a escala de petabytes. Al separar el almacenamiento del cómputo y aprovechar la escala masiva y el paralelismo de Spark dentro de la Plataforma de Inteligencia de Datos de Databricks, ofrece:

Capacidad de miles de millones de vectores
Hasta 7 veces menos coste
Indexación 20 veces más rápida
Filtrado estilo SQL

Lo mejor de todo es que es un reemplazo directo para las mismas API que sus equipos ya utilizan, ahora potenciado para RAG, búsqueda semántica y resolución de entidades en producción del mundo real. Además, para apoyar aún más a los equipos empresariales, también estamos introduciendo nuevas funciones diseñadas para optimizar el desarrollo y mejorar la visibilidad de los costes.

Novedades en la Búsqueda Vectorial optimizada para almacenamiento

Los puntos de conexión optimizados para almacenamiento se crearon en respuesta directa a lo que los equipos empresariales nos dijeron que necesitaban más: la capacidad de indexar y buscar en lagos de datos no estructurados completos, infraestructura que escala sin costes crecientes y ciclos de desarrollo más rápidos.

Escala de miles de millones de vectores, 7 veces menos coste

La escala ya no es una limitación. Mientras que nuestra oferta Estándar admitía unos cientos de millones de vectores, la optimizada para almacenamiento está diseñada para miles de millones de vectores a un coste razonable, lo que permite a las organizaciones ejecutar cargas de trabajo completas del lago de datos sin necesidad de muestrear o filtrar. Los clientes que ejecutan cargas de trabajo grandes están viendo hasta un 700% menos de costes de infraestructura, lo que finalmente hace factible ejecutar GenAI en producción en conjuntos de datos masivos no estructurados.

A modo de comparación, el precio de la optimizada para almacenamiento sería de ~900 $/mes para 45 millones de vectores y ~7.000 $/mes para 1.300 millones de vectores. Esta última representa un ahorro significativo en comparación con los ~47.000 $/mes de nuestra oferta estándar.

Indexación hasta 20 veces más rápida

Desbloquee ciclos de iteración rápidos que antes eran imposibles. Nuestra rearquitectura impulsa una de las mejoras más solicitadas: una indexación drásticamente más rápida. Ahora puede crear un índice de mil millones de vectores en menos de 8 horas, y los índices más pequeños de 100 millones de vectores o menos se crean en minutos.

“La mejora en la velocidad de indexación con la optimización para almacenamiento es enorme para nosotros. Lo que antes llevaba aproximadamente 7 horas, ahora solo lleva una hora, una mejora de 7-8 veces”. —Ritabrata Moitra, Ingeniero Principal de ML, CommercelIQ

Filtrado similar a SQL

Filtre fácilmente los registros sin aprender sintaxis desconocida. Más allá del rendimiento y la escala, también nos hemos centrado en la usabilidad. El filtrado de metadatos ahora se realiza utilizando una sintaxis intuitiva, similar a SQL, lo que facilita la reducción de los resultados de búsqueda utilizando criterios con los que ya está familiarizado.

Mismas API, Backend Completamente Nuevo

Migrar a puntos de conexión optimizados para almacenamiento es fácil: solo selecciónelo al crear un nuevo punto de conexión y cree un nuevo índice en su tabla. La API de búsqueda de similitud sigue siendo la misma, por lo que no es necesario realizar cambios importantes en el código.

“Vemos la Búsqueda Vectorial optimizada para almacenamiento como un reemplazo directo de la oferta estándar. Desbloquea la escala que necesitamos para dar soporte a cientos de inversores internos que consultan decenas de millones de documentos al día, sin comprometer la latencia o la calidad”. —Alexandre Poulain, Director, Equipo de Ciencia de Datos e IA, PSP Investments

Dado que esta capacidad forma parte de la plataforma Databricks, viene con la gobernanza completa impulsada por Unity Catalog. Eso significa controles de acceso adecuados, pistas de auditoría y seguimiento de linaje en todos sus activos de Búsqueda Vectorial, garantizando el cumplimiento de las políticas empresariales de datos y seguridad desde el primer día.

Funciones Mejoradas para Optimizar su Flujo de Trabajo

Para apoyar aún más a los equipos empresariales, estamos introduciendo nuevas capacidades que facilitan la experimentación, el despliegue y la gestión de cargas de trabajo de Búsqueda Vectorial a escala.

Los equipos ahora pueden probar y desplegar un agente de chat respaldado por un índice de Búsqueda Vectorial como base de conocimiento en dos clics, un proceso que antes requería un código personalizado significativo. Con la integración directa en el Agent Playground, ahora en Vista Previa Pública, seleccione su índice de Búsqueda Vectorial como herramienta, pruebe su agente RAG y exporte, despliegue y evalúe agentes sin escribir una sola línea de código. Esto acorta drásticamente el camino del prototipo a la producción.

Nuestra visibilidad de costes mejorada con el etiquetado de políticas de presupuesto de punto de conexión permite a los propietarios de plataformas y equipos de FinOps rastrear y comprender fácilmente el gasto en varios equipos y casos de uso, asignar presupuestos y gestionar costes a medida que aumenta el uso. Pronto habrá más soporte para etiquetar índices y recursos de cómputo.

Esto es solo el principio

El lanzamiento de los puntos de conexión optimizados para almacenamiento es un hito importante, pero ya estamos trabajando en futuras mejoras:

Escalado a Cero: Escala automáticamente los recursos de cómputo cuando no se utilizan para reducir aún más los costes
Soporte de QPS Alto: Infraestructura para manejar miles de consultas por segundo para aplicaciones exigentes en tiempo real
Más allá de la Búsqueda Semántica: Capacidades de recuperación no semántica eficientes para cargas de trabajo solo de palabras clave.

Nuestro objetivo es simple: construir la mejor tecnología de búsqueda vectorial disponible, totalmente integrada con la Plataforma de Inteligencia de Datos de Databricks en la que ya confía.

Empiece a Construir Hoy Mismo

Los puntos de conexión optimizados para almacenamiento transforman la forma en que trabaja con datos no estructurados a escala. Con capacidad masiva, mejor economía, indexación más rápida y filtrado familiar, puede crear con confianza aplicaciones de IA más potentes.

¿Listo para empezar?

Pruebe Databricks AI Search gratis: la configuración exprés le da acceso instantáneo y créditos serverless gratuitos.
Consulte nuestra documentación para ver cómo se hace.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs

Novedades en la Búsqueda Vectorial optimizada para almacenamiento

Escala de miles de millones de vectores, 7 veces menos coste

Indexación hasta 20 veces más rápida

Filtrado similar a SQL

Mismas API, Backend Completamente Nuevo

Funciones Mejoradas para Optimizar su Flujo de Trabajo

Esto es solo el principio

Empiece a Construir Hoy Mismo

Recibe las últimas publicaciones en tu bandeja de entrada

Sign up