La búsqueda vectorial es una técnica de búsqueda que encuentra resultados basados en el significado, no solo en la coincidencia de palabras clave. Mientras que la búsqueda tradicional busca palabras exactas, la búsqueda vectorial compara embeddings. Estas representaciones numéricas capturan el significado del texto, las imágenes, el audio y otros contenidos.
Los resultados se clasifican según la similitud de sus embeddings con los de la consulta, no por las palabras compartidas. Esto convierte a la búsqueda vectorial en una capa de recuperación fundamental detrás de los asistentes de IA modernos, los sistemas de búsqueda semántica y la generación aumentada por recuperación (RAG).
Esta guía explica cómo funciona la búsqueda vectorial, cómo se compara con la búsqueda semántica y por palabras clave, ejemplos y casos de uso comunes, y cómo evaluarla en la práctica.
La búsqueda vectorial funciona en tres etapas: creación de embeddings, construcción de un índice y coincidencia de una consulta con ese índice.
Encontrar esas coincidencias más cercanas se denomina búsqueda de vecinos más cercanos. El enfoque más simple, la búsqueda de k-vecinos más cercanos (k-NN), compara la consulta con cada elemento del índice y devuelve las k coincidencias más cercanas. Aunque es preciso, se vuelve demasiado lento a medida que los conjuntos de datos crecen a millones de elementos.
La mayoría de los sistemas en producción utilizan en su lugar la búsqueda de vecinos más cercanos aproximados (ANN). ANN utiliza índices especializados para identificar posibles coincidencias sin comparar cada elemento. Sacrifica una pequeña cantidad de precisión a cambio de un rendimiento drásticamente más rápido, lo que hace que la búsqueda vectorial sea práctica a gran escala.
Una búsqueda simple ilustra cómo se diferencia la búsqueda vectorial de la búsqueda por palabras clave.
Busque "perro". Una búsqueda por palabras clave devuelve resultados que contienen esa palabra exacta. Una búsqueda vectorial también puede devolver resultados para "cachorro", "canino" y "golden retriever". Esos términos están relacionados conceptualmente con "perro", aunque utilicen palabras diferentes. El motor de búsqueda busca el concepto, no la palabra exacta.
La búsqueda vectorial también funciona en diferentes formatos. Una consulta de texto como "zapatillas rojas" puede devolver imágenes de productos que coincidan con la descripción, aunque la imagen no contenga texto. La búsqueda por palabras clave no puede hacer esa conexión porque se basa en la coincidencia de palabras. La búsqueda vectorial recupera contenido basándose en la similitud semántica, independientemente del formato.
La búsqueda por palabras clave coincide con las palabras. La búsqueda vectorial coincide con el significado. Ambos enfoques tienen puntos fuertes, por lo que la búsqueda vectorial complementa a la búsqueda por palabras clave en lugar de reemplazarla.
La búsqueda de coincidencia exacta sigue siendo la mejor herramienta para consultas estructuradas, como ID de pedidos, códigos de productos y títulos de documentos conocidos.
| Atributo | Búsqueda por palabras clave | Búsqueda vectorial |
|---|---|---|
| Coincide con | Palabras exactas | Significado y contexto |
| Manejo de sinónimos | Débil | Fuerte |
| Funciona en varios idiomas | No | A menudo sí |
| Funciona con imágenes y audio | No | Sí |
| Ideal para términos exactos (ID, códigos) | Fuerte | Más débil |
| Método típico | BM25 / TF-IDF | Búsqueda de vecinos más cercanos |
Los sistemas de búsqueda más potentes combinan ambos enfoques. La sección de búsqueda híbrida a continuación explica cómo.
La búsqueda semántica y la búsqueda vectorial están estrechamente relacionadas, pero no son lo mismo. La búsqueda semántica es el resultado: ayudar a los usuarios a encontrar información relevante basada en el significado y el contexto. La búsqueda vectorial es una de las técnicas más comunes utilizadas para lograrlo.
Dado que la búsqueda semántica describe un resultado en lugar de una tecnología específica, se puede implementar de diferentes maneras. En muchos sistemas modernos, la búsqueda vectorial es el motor principal detrás de la búsqueda semántica.
Los vectores densos y dispersos están diseñados para diferentes tipos de problemas de búsqueda.
Los vectores densos capturan el significado general y el contexto. Ayudan a los sistemas a reconocer ideas relacionadas, sinónimos y conceptos, incluso cuando se utilizan palabras diferentes. Generados por modelos de aprendizaje automático, son muy adecuados para la coincidencia semántica y entre varios idiomas.
Los vectores dispersos funcionan más como la búsqueda tradicional por palabras clave. La mayoría de los valores son cero, con valores distintos de cero solo para los términos que aparecen en el contenido. Generados por algoritmos como BM25, destacan en la coincidencia de términos exactos. Los códigos de productos, los nombres propios y los identificadores específicos son los ámbitos donde destacan los vectores dispersos.
| Tipo | Qué captura | Ideal para |
|---|---|---|
| Vectores densos | Significado general y contexto | Coincidencia semántica, de sinónimos y entre varios idiomas |
| Vectores dispersos | Palabras clave específicas y sus pesos | Términos exactos, nombres y códigos |
La combinación de vectores densos y dispersos es la base de la búsqueda híbrida. Esa combinación suele ofrecer los resultados más fiables en producción.
La búsqueda híbrida combina resultados basados en vectores y en palabras clave en una única clasificación. A menudo es la opción predeterminada y práctica para los sistemas en producción porque combina la recuperación basada en el significado y la coincidencia exacta en una sola experiencia de búsqueda. La búsqueda vectorial puede pasar por alto códigos de productos, nombres o identificadores exactos porque esos términos no siempre se agrupan estrechamente en el espacio de embeddings. La búsqueda por palabras clave puede perder resultados relevantes que utilizan una redacción diferente. La búsqueda híbrida aborda ambos desafíos combinando las fortalezas de cada enfoque.
La mayoría de los sistemas de búsqueda híbrida también include un paso de reclasificación (reranking). La reclasificación es una segunda pasada que reordena los resultados para colocar las mejores coincidencias en la parte superior. Como resultado, la búsqueda híbrida suele ofrecer una relevancia más fiable que cualquiera de los dos métodos por separado. La Plataforma Databricks admite índices híbridos que combinan la búsqueda semántica y por palabras clave, con reclasificación integrada.
La búsqueda vectorial impulsa aplicaciones que dependen de encontrar resultados relevantes en lugar de coincidencias exactas de palabras clave.
La generación aumentada por recuperación (RAG) ayuda a los asistentes de IA a responder preguntas utilizando información actualizada y relevante, en lugar de depender completamente de lo que el modelo ya sabe. Antes de responder, el asistente recupera el contenido relevante de una base de conocimientos. La búsqueda vectorial es la capa de recuperación que encuentra ese contenido.
Los documentos se dividen en fragmentos más pequeños para que el sistema pueda recuperar el pasaje más relevante, no solo el documento más relevante. Este enfoque ha convertido a RAG en una de las aplicaciones de búsqueda vectorial de más rápido crecimiento. Obtenga más información sobre RAG y las bases de datos vectoriales.
Las bases de conocimientos internas, los sistemas de tickets y los repositorios de documentos se vuelven más útiles cuando las personas buscan por significado en lugar de por palabras exactas. Una consulta como "política de baja por paternidad" puede mostrar el documento de HR adecuado, incluso si se titula "guía de beneficios familiares". La búsqueda vectorial hace que el conocimiento empresarial sea más fácil de encontrar sin requerir una redacción exacta.
Los motores de recomendación utilizan la búsqueda vectorial para encontrar productos, artículos, videos y otros contenidos que sean conceptualmente similares a lo que el usuario ya está viendo. Esto impulsa experiencias familiares como las recomendaciones de "a los clientes que les gustó esto también les gustó". El sistema simplemente encuentra elementos cuyos embeddings están más cerca del elemento actual.
La búsqueda vectorial puede realizar coincidencias entre diferentes formatos e idiomas. Una consulta de texto como "botas de montaña para terreno húmedo" puede devolver imágenes de productos relevantes, incluso cuando las imágenes no contienen texto. Una consulta en inglés también puede recuperar documentos relevantes escritos en español. Esto hace que la búsqueda vectorial sea útil para organizaciones globales y aplicaciones que trabajan con diversos tipos de contenido.
La búsqueda vectorial puede ayudar a identificar patrones inusuales al encontrar elementos que se alejan de los normales. En la detección de fraudes, las transacciones que se ven significativamente diferentes de la actividad típica se pueden marcar para su revisión. El mismo enfoque se puede utilizar para detectar anomalías en el tráfico de red, sistemas de fabricación y otros datos operativos.
No siempre. El enfoque correcto depende de su escala, requisitos de rendimiento e infraestructura existente. Las organizaciones suelen implementar la búsqueda vectorial utilizando una base de datos vectorial, un motor de búsqueda con funciones vectoriales o una biblioteca de búsqueda de similitud. Obtenga más información sobre las bases de datos vectoriales.
| Opción | Qué es | Ideal cuando |
|---|---|---|
| Base de datos vectorial | Diseñada específicamente para embeddings a escala | Necesidades de gran volumen y baja latencia |
| Motor de búsqueda con funciones vectoriales | Añade vectores a la búsqueda existente | Ya se utiliza la búsqueda por palabras clave |
| Biblioteca | Kit de herramientas de código para búsqueda por similitud | Proyectos pequeños, prototipado |
Los servicios gestionados pueden reducir el tiempo de configuración, la sobrecarga operativa y el mantenimiento continuo. La plataforma de Databricks incluye una base de datos vectorial integrada a través de Databricks AI Search, que combina la búsqueda vectorial, la búsqueda por palabras clave, el filtrado de metadatos y el reordenamiento (reranking) en un único servicio. También se integra con funciones de gobernanza de IA como Unity Catalog, lo que ayuda a las organizaciones a aplicar controles consistentes a las aplicaciones de IA.
Implementar la búsqueda vectorial en un entorno de producción real es solo el primer paso. Para garantizar una fiabilidad, rendimiento y precisión sostenidos en producción, estos sistemas requieren un ajuste y mantenimiento continuos en varias áreas operativas clave.
Los índices vectoriales grandes consumen memoria y recursos de computación, lo que aumenta los costos de infraestructura. A medida que los conjuntos de datos crecen y los volúmenes de consultas aumentan, esos costos también se incrementan. Una búsqueda más rápida y precisa suele requerir más recursos, por lo que los equipos deben equilibrar el rendimiento, la calidad y el costo.
Los índices vectoriales no se actualizan automáticamente cuando cambia el contenido de origen. Cuando se añaden, editan o eliminan documentos, el índice debe actualizarse para reflejar esos cambios. Sin actualizaciones periódicas, los resultados de búsqueda pueden quedar obsoletos y omitir información nueva importante.
Antes de ajustar un sistema, cree un pequeño conjunto de prueba de consultas representativas con resultados correctos conocidos. Medir la calidad significa comprobar si los resultados correctos aparecen cerca de las primeras posiciones para esas consultas. Esto crea una línea base para evaluar cambios futuros.
A menudo, dos factores tienen un impacto significativo en la relevancia. Los filtros de metadatos limitan los resultados por etiquetas, fechas o categorías antes de que se ejecute la clasificación por similitud. Esto puede mejorar la precisión cuando la coincidencia semántica devuelve demasiados resultados.
La calidad de los embeddings también depende del modelo utilizado para generarlos. Es posible que los modelos de propósito general no capturen bien la terminología especializada. Para dominios con un lenguaje específico del sector, como el de la salud, el legal o el de los servicios financieros, un modelo ajustado al dominio puede mejorar la calidad de la recuperación.
Databricks AI Search es una base de datos vectorial gestionada e integrada en la plataforma de Databricks. Admite búsqueda semántica, búsqueda por palabras clave, filtrado de metadatos y reordenamiento (reranking) en un único servicio. Dado que se integra con los datos, la gobernanza y las herramientas de productividad existentes, los equipos pueden crear sistemas de recuperación sin tener que conectar plataformas independientes.
AI Search se conecta directamente a los datos que las organizaciones ya gestionan en Databricks, lo que reduce la necesidad de mover o duplicar datos. También se integra con funciones de gobernanza como Unity Catalog, lo que permite extender los controles de acceso y las políticas de linaje existentes a las cargas de trabajo de búsqueda.
¿Cómo se utiliza la búsqueda vectorial en las aplicaciones RAG?
En un sistema RAG, la consulta del usuario se convierte en un embedding y se compara con una biblioteca de fragmentos de documentos en un índice vectorial. Se recuperan las coincidencias más cercanas y se pasan al modelo de lenguaje como contexto. A continuación, el modelo genera una respuesta basada en los propios datos de la organización, en lugar de depender únicamente de sus datos de entrenamiento.
¿Cuándo se debe utilizar la búsqueda híbrida en lugar de la búsqueda vectorial por sí sola?
Cuando los usuarios buscan identificadores específicos, como códigos de productos, códigos de error o nombres propios, es posible que la búsqueda semántica por sí sola no los encuentre. Los términos exactos no siempre se alinean estrechamente en el espacio de embeddings. La búsqueda híbrida combina los resultados vectoriales y de palabras clave, proporcionando tanto amplitud semántica como precisión de coincidencia exacta en una única clasificación.
¿Qué hace que los resultados de la búsqueda vectorial sean más precisos?
Varios factores influyen en la calidad de la recuperación. La calidad del modelo de embedding determina qué tan bien se captura el significado. Los filtros de metadatos limitan el espacio de búsqueda antes de que se ejecute la clasificación por similitud. La actualización del índice garantiza que los resultados reflejen el contenido actual en lugar de información obsoleta.
¿Cuáles son los principales compromisos de la búsqueda vectorial?
La búsqueda vectorial requiere más memoria y computación que la búsqueda por palabras clave. Los índices grandes conllevan costos de infraestructura reales. La búsqueda ANN es aproximada por diseño, lo que genera un pequeño compromiso de precisión en comparación con la búsqueda exhaustiva. Los índices también requieren actualizaciones periódicas para mantenerse al día a medida que cambian los datos de origen. La búsqueda híbrida añade complejidad, pero a menudo ofrece resultados más fiables que cualquiera de los dos enfoques por separado.
¿Cómo admite Databricks AI Search la búsqueda vectorial?
Databricks AI Search es una base de datos vectorial gestionada y serverless integrada en la plataforma de Databricks. Admite búsqueda híbrida, filtrado de metadatos y reordenamiento (reranking) integrado. Las canalizaciones de sincronización automatizadas mantienen los índices actualizados a medida que cambian los datos de las tablas Delta, mientras que Unity Catalog extiende los controles de gobernanza a las cargas de trabajo de búsqueda.
La búsqueda vectorial ayuda a los sistemas de IA a encontrar información relevante basada en el significado en lugar de palabras clave exactas. Esta capacidad impulsa desde aplicaciones RAG y motores de recomendación hasta la búsqueda empresarial.
A medida que los sistemas de IA dependen más de la recuperación, la búsqueda híbrida y una infraestructura de búsqueda fiable son cada vez más importantes. Para obtener más información, explore AI Search en la plataforma de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.