La ingesta de datos es el primer paso en el ciclo de vida de la ingeniería de datos. Consiste en recopilar datos de diversas fuentes, como bases de datos, aplicaciones SaaS, fuentes de archivos, API y dispositivos de IoT, en un repositorio centralizado como un data lake, un data warehouse o un lakehouse. Esto permite a las organizaciones limpiar y unificar los datos para aprovechar la analítica y la IA en la toma de decisiones basada en datos.
Tradicionalmente, la ingesta de datos se ha gestionado mediante una combinación de scripts a medida, frameworks de código abierto como Apache NiFi y Kafka, o soluciones de ingesta gestionadas de proveedores de la nube como AWS Glue, Google Cloud Dataflow y Azure Data Factory. Estos métodos suelen requerir un esfuerzo de ingeniería considerable para su mantenimiento, especialmente al gestionar la evolución de los esquemas, la consistencia de los datos y el procesamiento en tiempo real a escala. Muchas empresas también utilizan herramientas de ingesta, transformación y orquestación por separado, lo que genera una mayor complejidad y silos de datos.
A diferencia de ETL (extracción, transformación y carga), que transforma los datos antes de cargarlos, la ingesta de datos mueve los datos sin procesar directamente a un destino, lo que permite un acceso más rápido y mayor flexibilidad.
Los métodos de ingesta de datos varían según el caso de uso, lo que permite la recopilación de datos en lotes programados, flujos continuos o un híbrido de ambos.
Las diferentes estructuras de datos requieren técnicas específicas de ingesta y procesamiento:
Las herramientas de ingesta de datos van desde opciones de código abierto como Apache NiFi y Kafka, conocidas por su flexibilidad y personalización, hasta plataformas comerciales como la Databricks Data Intelligence Platform, que combina la ingesta, la transformación y la orquestación en una única plataforma.
Databricks Lakeflow es una solución unificada e inteligente para la ingeniería de datos creada sobre la plataforma de inteligencia de datos. Abarca la ingesta, la transformación y la orquestación de sus datos.
Como parte de Lakeflow, Lakeflow Connect ofrece conectores para diversas fuentes de datos, lo que permite formas flexibles, fáciles y eficientes de ingerir datos tanto estructurados como no estructurados desde aplicaciones empresariales, fuentes de archivos y bases de datos.
Lakeflow Connect permite la ingesta de datos desde una variedad de fuentes de datos diferentes:
Las herramientas de ingesta eficaces optimizan el procesamiento de datos con características como:
Las herramientas de código abierto ofrecen flexibilidad y control, pero pueden requerir más configuración, lo que las hace ideales para los equipos técnicos. Databricks combina bases de código abierto con un extenso ecosistema de socios. La Databricks Data Intelligence Platform proporciona una ingesta gestionada con gobernanza y automatización integradas, lo que reduce los costos operativos y la complejidad.
La ingesta de datos suele ser el primer paso en el procesamiento de datos, desde la recopilación hasta el análisis, y conduce a operaciones secuenciales adicionales. El propósito principal de la ingesta de datos es tanto recopilar datos sin procesar de múltiples fuentes como transferir estos datos a un sistema de almacenamiento de data lake, data warehouse o lakehouse. La mayoría de las organizaciones requieren pasos adicionales más allá de la ingesta porque los datos sin procesar necesitan un mayor refinamiento antes de que sean útiles para el análisis y la toma de decisiones. La ingesta de datos representa el proceso de obtener múltiples fuentes de datos sin alterar el formato de los datos, centrándose en la alta velocidad y la disponibilidad flexible de los datos para permitir nuevas oportunidades de procesamiento.
La ingesta de datos trae datos sin procesar de diversas fuentes a un repositorio sin transformarlos, y prioriza el acceso inmediato a los datos sin modificar.
ETL implica extraer datos, transformarlos para cumplir con requisitos específicos y cargarlos en un sistema de destino, con un enfoque en la preparación de datos para la analítica. (Obtenga más información sobre la diferencia entre ETL y ELT.)
Las canalizaciones de datos abarcan la secuencia completa del movimiento de datos transformados para su procesamiento. Una canalización contiene varias operaciones sucesivas, además de la ingesta de datos y ETL, como pruebas de validación, eliminación de duplicados, ejecución de algoritmos de machine learning y procesamiento de datos en streaming.
La ingesta de datos es ideal para casos que requieren acceso rápido a los datos sin procesar, lo que permite obtener información casi en tiempo real. El ETL es adecuado para situaciones que requieren datos preparados y estructurados para la inteligencia empresarial y el análisis de datos, como los informes estandarizados. Las canalizaciones de datos proporcionan un marco más amplio para manejar flujos de trabajo complejos, integrando múltiples pasos en un proceso cohesivo.
En las arquitecturas modernas, la ingesta de datos y el ETL suelen complementarse. Por ejemplo, los datos pueden ser ingeridos primero en un lakehouse, donde los procesos de ETL los preparan posteriormente para un análisis más profundo y la generación de informes, mientras que un data pipeline más amplio automatiza todo el flujo de trabajo, desde la ingesta hasta el machine learning y la analítica. Databricks Lakeflow integra estos procesos, lo que crea un flujo de trabajo unificado para ofrecer flexibilidad y una gestión de datos integral.
Establecer las mejores prácticas fundamentales ayuda a garantizar flujos de trabajo de ingesta eficientes, confiables y bien gobernados:
Una vez establecidos los procesos de ingesta, la optimización continua ayuda a adaptarse a las necesidades empresariales en evolución y a gestionar eficazmente los crecientes volúmenes de datos.
