Obtén una vista previa anticipada del nuevo ebook de O'Reilly para obtener la guía paso a paso que necesitas para empezar a usar Delta Lake.
Como parte de nuestro Meetup en línea de Data + AI, hemos explorado temas que van desde la genómica (con invitados de Regeneron) hasta los pipelines de machine learning y el ML acelerado por GPU, y la optimización del rendimiento de Tableau. Un área temática clave ha sido la exploración del Lakehouse.
El auge del patrón arquitectónico de Lakehouse se basa en innovaciones tecnológicas que permiten que el data lake admita transacciones ACID y otras características de las cargas de trabajo de los data warehouse tradicionales.
La serie de charlas técnicas Getting Started with Delta Lake te guía por la base tecnológica de Delta Lake (Apache Spark™), la creación de canalizaciones de datos altamente escalables, el manejo de cargas de trabajo combinadas de streaming y por lotes, el impulso de la ciencia de datos con Delta Lake y MLflow, e incluso va tras bambalinas con los ingenieros de Delta Lake para entender sus orígenes.
Apache Spark es el framework de procesamiento dominante para big data. Delta Lake le agrega confiabilidad a Spark para que sus iniciativas de análisis y machine learning tengan acceso inmediato a datos confiables y de calidad, almacenados en almacenamientos de objetos en la nube de bajo costo, como AWS S3, Azure Storage y Google Cloud Storage. En esta sesión, aprenderá a usar Delta Lake para mejorar la confiabilidad de los datos de sus data lakes.
Una arquitectura común de pipeline de ingeniería de datos utiliza tablas que corresponden a diferentes niveles de calidad, agregando progresivamente estructura a los datos: ingesta de datos (tablas “Bronze”), transformación/ingeniería de características (tablas “Silver”) y tablas agregadas/entrenamiento o predicción de machine learning (tablas “Gold”). En conjunto, a estas tablas se las conoce como una arquitectura “multi-hop”. Les permite a los ingenieros de datos construir un pipeline que comienza con datos crudos como una “única fuente de la verdad” desde la cual todo fluye. En esta sesión, aprenderás sobre la arquitectura, los escenarios y las mejores prácticas de los pipelines de ingeniería de datos, cómo Delta Lake los mejora y lo fácil que es adoptarlo para construir tus propios pipelines.
La arquitectura lambda es una técnica popular en la que los registros se procesan mediante un sistema por lotes y un sistema de transmisión en paralelo. Luego, los resultados se combinan durante el tiempo de consulta para proporcionar una respuesta completa. Con la llegada de Delta Lake, vemos que muchos de nuestros clientes adoptan un modelo simple de flujo de datos continuo para procesar los datos a medida que llegan. A esta arquitectura la llamamos la “arquitectura delta”. En esta sesión, cubrimos los principales cuellos de botella para adoptar un modelo de flujo de datos continuo y cómo la arquitectura Delta resuelve esos problemas.
A la hora de planificar iniciativas de ciencia de datos, se debe tener una visión holística de todo el ámbito de la analítica de datos. La ingeniería de datos es un facilitador clave de la ciencia de datos que ayuda a proporcionar datos confiables y de calidad de manera oportuna. En esta sesión, aprenderá sobre el ciclo de vida de la ciencia de datos, los principios clave de la ingeniería de datos moderna, cómo Delta Lake puede ayudar a preparar datos confiables para el análisis, lo fácil que es adoptar Delta Lake para potenciar su data lake y cómo incorporar Delta Lake en su infraestructura de datos para habilitar la ciencia de datos.
El Developer Advocate Denny Lee entrevista a Burak Yavuz, ingeniero de software en Databricks, para conocer el proceso de toma de decisiones del equipo de Delta Lake y por qué diseñaron, estructuraron e implementaron la arquitectura que es hoy en día. En esta sesión, conocerás los desafíos técnicos que enfrentó el equipo, cómo se resolvieron y cuáles son sus planes para el futuro.
Comienza a llenar tu Delta Lake hoy mismo mirando esta serie completa.
Si quieres ampliar tus conocimientos sobre Delta Lake, mira nuestra serie de charlas técnicas Diving into Delta Lake. De la mano del equipo de ingeniería de Delta Lake, que incluye a Burak Yavuz, Andrea Neumann, Tathagata “TD” Das y el Developer Advocate, Denny Lee, aprenderás sobre la implementación interna de Delta Lake.
Si quieres enterarte de los futuros meetups en línea, únete a nuestro Data + AI Online Meetup en meetup.com

Profundizando en Delta Lake
Sumérgete en los componentes internos de Delta Lake, una popular tecnología de código abierto para data lakes más confiables.
Produto
June 12, 2024/11 min de leitura

