¿Qué es la ingestión de datos?

Recopilación e importación de datos de diversas fuentes en sistemas de almacenamiento o procesamiento mediante cargas por lotes, API, transmisión o captura de datos modificados.

por Personal de Databricks

La ingesta por lotes carga datos en intervalos programados mediante extracciones completas o incrementales, ideal para grandes volúmenes con una latencia aceptable, medida en horas o días, para la generación de informes y el análisis histórico.
La ingesta en tiempo real captura eventos a medida que ocurren mediante CDC, envío de registros o webhooks de API, entregando datos en segundos o milisegundos, lo que permite análisis y respuestas operativas inmediatas.
Se tienen en cuenta factores como el volumen y la velocidad de los datos, los requisitos de latencia, las capacidades del sistema fuente, la fiabilidad de la red, la gestión de errores y la lógica de reintento, la gestión de la evolución del esquema, la validación de datos durante la ingesta y la optimización de costes.

La ingesta de datos es el primer paso en el ciclo de vida de la ingeniería de datos. Consiste en recopilar datos de diversas fuentes, como bases de datos, aplicaciones SaaS, fuentes de archivos, API y dispositivos de IoT, en un repositorio centralizado como un data lake, un data warehouse o un lakehouse. Esto permite a las organizaciones limpiar y unificar los datos para aprovechar la analítica y la IA en la toma de decisiones basada en datos.
Tradicionalmente, la ingesta de datos se ha gestionado mediante una combinación de scripts a medida, frameworks de código abierto como Apache NiFi y Kafka, o soluciones de ingesta gestionadas de proveedores de la nube como AWS Glue, Google Cloud Dataflow y Azure Data Factory. Estos métodos suelen requerir un esfuerzo de ingeniería considerable para su mantenimiento, especialmente al gestionar la evolución de los esquemas, la consistencia de los datos y el procesamiento en tiempo real a escala. Muchas empresas también utilizan herramientas de ingesta, transformación y orquestación por separado, lo que genera una mayor complejidad y silos de datos.
A diferencia de ETL (extracción, transformación y carga), que transforma los datos antes de cargarlos, la ingesta de datos mueve los datos sin procesar directamente a un destino, lo que permite un acceso más rápido y mayor flexibilidad.

Más temas para descubrir

Los métodos de ingesta de datos varían según el caso de uso, lo que permite la recopilación de datos en lotes programados, flujos continuos o un híbrido de ambos.

Ingesta por lotes incremental: recopila datos a intervalos definidos, lo que es ideal para actualizaciones periódicas y situaciones en las que los datos en tiempo real no son esenciales.
Ingesta por streaming: este método ingiere datos de forma incremental y puede admitir situaciones en tiempo real, como aplicaciones que requieren un acceso rápido, por ejemplo, el monitoreo de IoT.
Ingesta híbrida: combina el procesamiento por lotes y la transmisión en tiempo real, lo que permite actualizaciones programadas y fuentes de datos en tiempo real, ideal para operaciones que requieren actualizaciones estáticas y seguimiento dinámico.

Las diferentes estructuras de datos requieren técnicas específicas de ingesta y procesamiento:

Datos no estructurados: Datos sin un formato predefinido, como archivos de texto, imágenes y video, que suelen requerir herramientas especializadas para su procesamiento y se ingieren comúnmente mediante métodos por lotes o híbridos.
Datos semiestructurados: los datos con alguna estructura, como JSON o XML, son adecuados tanto para la ingesta por lotes como en streaming y ofrecen flexibilidad al manejar atributos en evolución.
Datos estructurados: los datos organizados en un esquema definido (p. ej., bases de datos, hojas de cálculo) se pueden integrar rápidamente a través de la ingesta por lotes o de streaming, lo que los hace ideales para el análisis y la generación de informes.

Herramientas populares

Las herramientas de ingesta de datos van desde opciones de código abierto como Apache NiFi y Kafka, conocidas por su flexibilidad y personalización, hasta plataformas comerciales como la Databricks Data Intelligence Platform, que combina la ingesta, la transformación y la orquestación en una única plataforma.

Databricks Lakeflow es una solución unificada e inteligente para la ingeniería de datos creada sobre la plataforma de inteligencia de datos. Abarca la ingesta, la transformación y la orquestación de sus datos.
Como parte de Lakeflow, Lakeflow Connect ofrece conectores para diversas fuentes de datos, lo que permite formas flexibles, fáciles y eficientes de ingerir datos tanto estructurados como no estructurados desde aplicaciones empresariales, fuentes de archivos y bases de datos.
Lakeflow Connect permite la ingesta de datos desde una variedad de fuentes de datos diferentes:

Conectores administrados: ingiere datos con conectores integrados para aplicaciones de software como servicio (SaaS) y bases de datos.
Conectores estándar: Permiten ingerir datos del almacenamiento de objetos en la nube y de fuentes de streaming como Kafka con herramientas para desarrolladores.
Archivos: Ingerir archivos que residen en su red local, que se han subido a un volumen o que se han descargado desde una ubicación de Internet.

Capacidades esenciales

Las herramientas de ingesta eficaces optimizan el procesamiento de datos con características como:

Evolución del esquema: Se adapta automáticamente a los cambios en las estructuras de datos, lo que reduce la intervención manual.
Seguimiento del linaje de datos: Rastrea los orígenes de los datos, lo que respalda los requisitos de gobernanza y cumplimiento.
Manejo y monitoreo de errores: Identifica y resuelve problemas en tiempo real, lo que garantiza cargas de datos confiables.
Escalabilidad: mantiene el rendimiento a medida que aumentan los volúmenes de datos, lo que es esencial para las operaciones a gran escala.
Integración de datos: permite una integración perfecta con data lakes y almacenes de datos, lo que posibilita una gestión de datos unificada.

Soluciones de código abierto vs. soluciones comerciales

Las herramientas de código abierto ofrecen flexibilidad y control, pero pueden requerir más configuración, lo que las hace ideales para los equipos técnicos. Databricks combina bases de código abierto con un extenso ecosistema de socios. La Databricks Data Intelligence Platform proporciona una ingesta gestionada con gobernanza y automatización integradas, lo que reduce los costos operativos y la complejidad.

La ingesta de datos suele ser el primer paso en el procesamiento de datos, desde la recopilación hasta el análisis, y conduce a operaciones secuenciales adicionales. El propósito principal de la ingesta de datos es tanto recopilar datos sin procesar de múltiples fuentes como transferir estos datos a un sistema de almacenamiento de data lake, data warehouse o lakehouse. La mayoría de las organizaciones requieren pasos adicionales más allá de la ingesta porque los datos sin procesar necesitan un mayor refinamiento antes de que sean útiles para el análisis y la toma de decisiones. La ingesta de datos representa el proceso de obtener múltiples fuentes de datos sin alterar el formato de los datos, centrándose en la alta velocidad y la disponibilidad flexible de los datos para permitir nuevas oportunidades de procesamiento.

¿Cuál es la diferencia entre la ingesta de datos y el ETL?

La ingesta de datos trae datos sin procesar de diversas fuentes a un repositorio sin transformarlos, y prioriza el acceso inmediato a los datos sin modificar.
ETL implica extraer datos, transformarlos para cumplir con requisitos específicos y cargarlos en un sistema de destino, con un enfoque en la preparación de datos para la analítica. (Obtenga más información sobre la diferencia entre ETL y ELT.)
Las canalizaciones de datos abarcan la secuencia completa del movimiento de datos transformados para su procesamiento. Una canalización contiene varias operaciones sucesivas, además de la ingesta de datos y ETL, como pruebas de validación, eliminación de duplicados, ejecución de algoritmos de machine learning y procesamiento de datos en streaming.

Cuándo usar cada enfoque

La ingesta de datos es ideal para casos que requieren acceso rápido a los datos sin procesar, lo que permite obtener información casi en tiempo real. El ETL es adecuado para situaciones que requieren datos preparados y estructurados para la inteligencia empresarial y el análisis de datos, como los informes estandarizados. Las canalizaciones de datos proporcionan un marco más amplio para manejar flujos de trabajo complejos, integrando múltiples pasos en un proceso cohesivo.

Integración de la ingesta de datos y ETL

En las arquitecturas modernas, la ingesta de datos y el ETL suelen complementarse. Por ejemplo, los datos pueden ser ingeridos primero en un lakehouse, donde los procesos de ETL los preparan posteriormente para un análisis más profundo y la generación de informes, mientras que un data pipeline más amplio automatiza todo el flujo de trabajo, desde la ingesta hasta el machine learning y la analítica. Databricks Lakeflow integra estos procesos, lo que crea un flujo de trabajo unificado para ofrecer flexibilidad y una gestión de datos integral.

Beneficios

Información en tiempo real: proporciona acceso a datos recientes para la toma de decisiones oportuna, lo que es fundamental para las operaciones que dependen de la información actual.
Escalabilidad mejorada: Admite de manera eficiente volúmenes de datos crecientes de diversas fuentes y se adapta a medida que se expanden las necesidades de la organización.
Modelos de IA mejorados: las actualizaciones continuas mejoran la precisión de los modelos de IA, lo que es esencial para aplicaciones como el mantenimiento predictivo y la segmentación de clientes.
Acceso centralizado: Reduce la necesidad de extracciones de datos repetidas, lo que permite que los equipos de distintos departamentos aprovechen los datos de manera eficiente.

Desafíos

Coherencia de los datos: garantizar una calidad uniforme a partir de diversas fuentes requiere mecanismos de validación sólidos.
Gestión de la latencia: la gestión de una baja latencia para la ingesta en tiempo real puede consumir muchos recursos y exigir una infraestructura confiable.
Complejidad de la integración: la combinación de datos de diversas fuentes requiere herramientas y experiencia especializadas para alinear los formatos y resolver las discrepancias de los esquemas.

Establecer una base sólida

Establecer las mejores prácticas fundamentales ayuda a garantizar flujos de trabajo de ingesta eficientes, confiables y bien gobernados:

Automatizar el monitoreo y el manejo de errores: El monitoreo automatizado detecta y resuelve problemas de calidad de los datos en tiempo real, lo que garantiza la confiabilidad de los datos y minimiza el tiempo de inactividad.
Optimiza la eficiencia: utiliza métodos de ingesta incremental para evitar la transferencia de datos redundantes, centrándote en los registros nuevos o actualizados para ahorrar tiempo y recursos.
Incorporar la gobernanza desde el principio: alinee los pipelines de ingesta con los marcos de gobernanza como Unity Catalog para garantizar el cumplimiento, el acceso seguro y el seguimiento optimizado del linaje de datos.

Optimización continua

Una vez establecidos los procesos de ingesta, la optimización continua ayuda a adaptarse a las necesidades empresariales en evolución y a gestionar eficazmente los crecientes volúmenes de datos.

Planificación estratégica para la escalabilidad: evalúe regularmente las fuentes de datos, las frecuencias de ingesta y los requisitos de procesamiento por lotes o de streaming para respaldar el crecimiento de la organización y cumplir con los objetivos en evolución, como el análisis en tiempo real o el archivado.
Garantizar la calidad y coherencia de los datos: aplique comprobaciones de validación durante todo el proceso de ingesta para mantener la exactitud de los datos, utilizando herramientas de gobernanza para estandarizar el manejo de datos y garantizar la calidad en todos los equipos.
Monitoreo y ajuste continuos: configure alertas para la latencia, los cambios de esquema y otras interrupciones de la ingesta, lo que permite a los equipos responder rápidamente y ajustar las configuraciones para maximizar el rendimiento y minimizar las demoras.

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs