Ir al contenido principal
Producto

Tutorial: 3 Proyectos Gratuitos de Análisis de Databricks que Puedes Hacer en una Tarde

Una introducción práctica a Databricks Free Edition a través de tres proyectos de análisis reales y listos para tu portafolio, completos con datos, paneles, SQL e insights impulsados por IA.

por Noah Sommerfeld

  • Tres proyectos de análisis para principiantes que puedes completar en una tarde usando Databricks Free Edition, sin necesidad de tarjeta de crédito.
  • Cómo importar y analizar conjuntos de datos públicos utilizando paneles de IA/BI, consultas en lenguaje natural, funciones de IA y ML ligero de pronóstico.
  • Ejemplos prácticos y listos para tu portafolio (paneles + código) que ayudan a estudiantes, buscadores de empleo y usuarios de BI a construir artefactos de análisis reales que puedan mostrar.

¿Quieres un proyecto de análisis real que puedas compartir públicamente, comentar en entrevistas o añadir a tu currículum o portafolio, todo sin necesidad de tarjeta de crédito?

La Edición Gratuita de Databricks ofrece a estudiantes, jóvenes profesionales y curiosos de la IA acceso a las mismas herramientas de datos+IA utilizadas en empresas líderes, con la cantidad adecuada de cómputo para proyectos personales, y el panel de análisis y BI de IA de Databricks es un excelente punto de partida. Este blog te guiará a través de la importación de algunos conjuntos de datos públicos para analizarlos, construir un panel de control pulido y contar una historia clara sobre las tendencias y los insights ocultos en ellos.

Ya seas un usuario avanzado de hojas de cálculo que busca mejorar con SQL y Python, o un ingeniero de BI experimentado que experimenta con análisis impulsados por IA, estos proyectos están diseñados para ayudarte a construir algo tangible, rápidamente. Si quieres profundizar, puedes explorar la capacitación gratuita de Databricks sobre IA/BI para análisis de autoservicio, cursos de autor de IA/BI en profundidad, o unirte a una sesión de incorporación gratuita en vivo. También puedes acceder a docenas de otras demostraciones públicas instalables aquí.

Configuración

Si aún no tienes una cuenta, puedes registrarte para obtener la Edición Gratuita de Databricks aquí, sin necesidad de tarjeta de crédito ni número de teléfono. Obtienes acceso a Databricks de forma gratuita, perpetua, para experimentación y aprendizaje con la Edición Gratuita de Databricks. Nota: La Edición Gratuita es para uso personal, no para producción o uso comercial. Si buscas una plataforma de datos de grado de producción y totalmente compatible para tu negocio, ponte en contacto con Databricks aquí.

Un último consejo antes de empezar: si encuentras errores o te atascas en algún punto, el Asistente de Databricks (el diamante morado en la esquina superior derecha) es increíblemente útil para depurar, generar SQL y explicar conceptos a medida que avanzas.

Asistente de Databricks

Con la configuración lista, ¡vamos a sumergirnos!

1. Analiza una panadería de galletas (simulada)

Comenzaremos con un calentamiento fácil. Para una pequeña empresa, mantener el pulso de las operaciones y las tendencias es fundamental para el éxito. El propietario de una pequeña empresa podría buscar insights como encontrar el producto más vendido, preguntar cuáles son las ubicaciones con mejor rendimiento o pronosticar cómo podrían ser las ventas el próximo año.

Cada espacio de trabajo de Databricks viene con un conjunto preinstalado de datos de ejemplo bajo el catálogo 'samples', que es un excelente punto de partida para experimentar con nuevas funciones. El conjunto de datos simulado 'bakehouse' de proveedores, reseñas y transacciones es un buen lugar para practicar contando una historia sobre el rendimiento de 'nuestra' pequeña empresa. Puedes encontrar el conjunto de datos en la sección 'catalog' en la barra lateral del menú izquierdo de Databricks, que es el núcleo de cada espacio de trabajo y te permite explorar los conjuntos de datos disponibles para análisis.

En este caso, puedes expandir el catálogo 'samples' y el esquema 'bakehouse' para encontrar los datos.

Catálogo

Para empezar, crea un nuevo panel haciendo clic en 'new->Dashboard' en la esquina superior izquierda del espacio de trabajo, luego, en la pestaña 'data' del panel, selecciona una de las tablas usando SQL como se muestra a continuación (o selecciónala desde el selector de tablas de la interfaz de usuario):

En el lienzo del panel, agrega visualizaciones y texto que te ayuden a contar una historia clara. Por ejemplo, podrías usar gráficos circulares para la composición (como la mezcla de productos), gráficos de líneas para tendencias (como las ventas a lo largo del tiempo) y contadores para resaltar números clave, como transacciones totales o ingresos.

Panel de ventas de Bakehouse

El conjunto de datos Bakehouse también incluye reseñas de clientes simuladas, lo que lo convierte en un excelente lugar para probar el análisis asistido por IA utilizando la función AI_Query(). Esto crea un nuevo conjunto de datos aplicando un modelo de IA directamente a tus datos; en este caso, clasificando cada reseña como positiva, negativa o neutral. También puedes modificar el prompt para generar una respuesta automática para cada reseña (y es posible que desees experimentar pidiendo diferentes tonos de voz).

Desafío de nivel superior: ¿Puedes encontrar una manera de aplicar otra función de IA como ai_classify() o ai_gen()? ¿Puedes ajustar el prompt de AI_Query() para que genere comentarios para el panel? ¿O respuestas automáticas a las reseñas? ¿Puedes llegar hasta el final y construir un agente para generar automáticamente copias de marketing basadas en las mejores reseñas, como lo hizo Kasey Uhlenhuth en el Data & AI Summit 2024?

2. Predice tu alquiler

Los datos de vivienda suelen ser un excelente lugar para ejercitar tu músculo de análisis: hay muchas correlaciones fuertes que encontrar, como el clima y las tasas de interés, y hay una plétora de datos de alta calidad publicados por fuentes oficiales (a menudo gubernamentales). Como ejemplos, los conjuntos de datos abiertos de Zillow Research ofrecen excelentes datos de vivienda en EE. UU., mientras que la Oficina de Estadísticas Nacionales del gobierno del Reino Unido proporciona datos censales de alta calidad. Las preguntas comunes de análisis son cosas como '¿Qué estado/provincia tiene las tasas de crecimiento más altas?', '¿Dónde hay más construcción nueva?' o '¿Cuál es la relación entre los costos de vivienda y las tasas de interés?'

Mi favorito personal es un conjunto de datos de 'precios de alquiler anunciados' del portal de Gobierno Abierto del Gobierno de Canadá, que contiene un conjunto de alquileres anunciados con atributos como año, área metropolitana, número de habitaciones, etc. Encuentro que la forma en que los años están organizados como filas individuales facilita el filtrado y el análisis.

Para introducir los datos en tu espacio de trabajo, descarga el conjunto de datos del portal, extrae el archivo de datos del zip ('46100092.csv'), luego presiona el botón 'upload data' en la página de inicio de tu espacio de trabajo para pasar por un pequeño asistente sobre cómo analizar el formato CSV en una tabla.

Datos de vivienda

Por defecto, nombrará la tabla resultante igual que el archivo con nombre técnico, así que presta atención a la oportunidad de renombrarla a algo significativo como 'Housing_data'. Una vez creada, usa la sección 'catalog' del espacio de trabajo para encontrarla y luego crea un panel usando el botón 'create' para obtener uno que esté pre-poblado con un esqueleto alrededor del conjunto de datos.

conjunto de datos

Para mejorar el panel de inicio, podrías agregar otras vistas y comparaciones que agreguen contexto y color al análisis. Podrías considerar comparar alquileres promedio o el crecimiento en otras ciudades, o examinar la proporción de unidades de una habitación con respecto a otros tipos de vivienda. ¿Cuál es la ciudad más cara? Recuerda también agregar filtros para que los usuarios puedan centrarse en sus ciudades o tipos de unidades de interés específicos.

En algunos casos, puede que necesites escribir una consulta SQL diferente o incorporar otros datos; recuerda que el Asistente de Databricks (diamante morado en la esquina superior derecha) puede ser útil. En mi ejemplo, le pedí al Asistente que agregara latitud/longitud para las ciudades para poder construir la vista de mapa.

starter dashboard

Para generar una predicción, comienza con un gráfico de líneas normal que tenga la fecha de referencia como eje x y el precio de venta (valor) como eje y. Luego, busca el botón ‘add forecast’ en la barra lateral. Esto agregará una nueva visualización de pronóstico a tu lienzo de dashboard, basada en un nuevo conjunto de datos SQL con la función SQL de Databricks ‘AI_Forecast()’ que llama a un modelo de series temporales de ML y lo aplica a tus datos. Esta función beta aún está evolucionando (¡nos encantaría recibir tus comentarios!), pero sigue siendo un punto de partida útil para aplicar ML a un caso de uso del mundo real. Recuerda también que Databricks Assistant siempre puede ayudarte a crear tu propio SQL personalizado para nuevos conjuntos de datos.

sql dataset

Desafío de nivel superior: Si bien AI_Forecast() es excelente para una predicción de referencia rápida, una más precisa implicaría combinar otros puntos de datos y aplicar un algoritmo de machine learning personalizado. Puedes ver cómo sería una solución completa de ese tipo (en este caso, predecir el mantenimiento de turbinas eólicas) en nuestro sitio de demos de Databricks.

3. Encuentra una Filmación para Observar

En ciudades que se utilizan con frecuencia como escenario de películas, es posible que tengas la suerte de encontrarte con camiones de filmación, asistentes de producción y pequeñas cabinas de dirección alrededor de edificios históricos o partes pintorescas de la ciudad. Antes de que las producciones cinematográficas puedan bloquear la propiedad pública para estas filmaciones, deben obtener permisos de filmación, que luego son publicados en conjuntos de datos abiertos por las agencias gubernamentales.

Si bien no tiene permisos con visión de futuro, uno de los mejores ejemplos de este tipo de conjunto de datos es el portal de datos abiertos de la ciudad de Nueva York para permisos de filmación. Enumera el tipo de filmación (es decir, noticias, largometraje o serie), junto con la hora de inicio y fin de la filmación, el distrito y el código postal. Al segmentar y analizar el conjunto de datos, puedes identificar las ubicaciones más comunes y, con suerte, ver a una estrella en acción.

AI Forecast

Al igual que en los ejemplos anteriores, tenemos que empezar cargando los datos en Databricks. El portal de datos abiertos de NYC te permite descargar fácilmente el archivo .csv e importarlo a través de la opción ‘upload data’ en la interfaz de usuario, como hicimos para los ejercicios anteriores. Sin embargo, una característica interesante de este conjunto de datos es que se actualiza diariamente. Vamos a obtener esos datos mediante programación para poder ejecutarlos según un horario. Eso está mucho más cerca de cómo lo abordarías en un contexto empresarial.

Databricks facilita mucho la ejecución del Python que necesitamos a través de Notebooks. En este caso, crea un notebook (nuevo -> notebook en la esquina superior izquierda), copia y pega el código a continuación, y presiona ejecutar para descargar el CSV en tu espacio de trabajo y analizarlo en una tabla. Recuerda que si tienes problemas, siempre puedes usar Databricks Assistant (a través del diamante morado) ¡para ayudarte!

Esta primera pieza de código crea un Volume (un lugar para almacenar archivos arbitrarios) y luego descarga el conjunto de datos usando la biblioteca Python URLLib. ¡Siéntete libre de modificar los nombres del catálogo y el esquema para que se adapten a tu estilo!

Este segundo fragmento de código toma el archivo sin procesar y crea una tabla llamada ‘film_permits’ que podemos usar en nuestro dashboard. Intenta pedirle a Assistant que lo explique si necesitas ayuda.

Si funcionó correctamente, deberías poder encontrar la tabla a través de la sección de catálogo del espacio de trabajo o abriendo la barra lateral del explorador de datos (icono de tres formas) en el notebook, y luego expandiendo el catálogo databricks_demo y el esquema open_nyc para ver la tabla. Es posible que necesites presionar el botón ‘refresh’ si ya lo tenías abierto.

databricks demo catalog

Recordatorio: Si encuentras algún problema con el código, recuerda que siempre puedes abandonar el enfoque de código e importar los datos manualmente descargándolos del portal y subiéndolos a través del botón ‘Upload Data’ en la página principal de tu espacio de trabajo.

Una vez que tengas la tabla cargada, ¡es hora de segmentarla, analizarla y presentar una historia! Es posible que desees verificar tendencias con un gráfico de líneas: ¿hay más filmaciones de series o largometrajes? ¿Está eso cambiando con el tiempo? O podrías pensar en la distribución con un gráfico de barras o circular: ¿las ubicaciones de filmación de noticias o comerciales se superponen mucho con las películas?

Si intentas crear una visualización de mapa, es posible que notes que, si bien los permisos de filmación tienen un código postal, la visualización de mapa del dashboard de AI/BI requiere atributos de latitud y longitud. Afortunadamente, los conjuntos de datos de mapeo de códigos postales a coordenadas son fáciles de encontrar en línea y se pueden incorporar al dashboard usando Assistant. Podrías descargar este conjunto de datos abierto (con licencia Creative Commons) y luego crear un nuevo conjunto de datos en tu dashboard, pidiéndole a Assistant que genere una consulta combinada. Aquí está el prompt que usé (ajusta los nombres de tu catálogo y tabla específicos):

¡Y aquí tienes una versión de cómo podría verse tu dashboard final!

AI/BI dashboard map visualization

Desafío: ¿Qué otros datos de OpenNYC podrías superponer, tal vez volúmenes de taxis o viajes compartidos? ¿Hitos significativos? Si eres políticamente activo, ¿hay algún análisis que pueda promover tu causa? Otras ciudades y estados ofrecen conjuntos de datos abiertos similares, como el conjunto de datos de Building Energy Benchmark de Seattle sobre emisiones que podría estar más cerca de casa para ti.

¿Puedes extender el análisis geoespacial utilizando las funciones ‘ST Functions’ nativas de Databricks para buscar los puntos más cercanos?

Resumen

Mi parte favorita de la analítica son los momentos de iluminación que obtienes mientras persigues la curiosidad, y espero que estos ejemplos te hayan inspirado. Si quieres aprender más o decides trabajar para obtener una certificación que puedas poner en tu currículum, puedes acceder al curso de capacitación gratuita de Databricks sobre IA/BI para autoaprendizaje aquí, un curso de capacitación de autor más detallado aquí, o unirte a una clase de incorporación en vivo gratuita. El sitio de documentación de Databricks también es un excelente lugar para consultar funciones específicas.

Si deseas importar alguno de los dashboards de ejemplo de este blog, puedes consultar este repositorio para obtener el código fuente. Las especificaciones de los dashboards de IA/BI son solo JSON, así que descarga el archivo e impórtalo a través del menú desplegable ‘import’ en la página principal de los dashboards.

Especificaciones del panel de IA/BI

Por último, puedes encontrar docenas de demostraciones instalables que van desde ML hasta la creación de paneles y la IA generativa en el Centro de demostraciones de Databricks. Prueba algo nuevo o comparte lo que has creado con la comunidad de Databricks en tu plataforma de redes sociales favorita. ¡Feliz desarrollo!

Empieza a crear con la Edición Gratuita de Databricks

Inicia tu espacio de trabajo gratuito, sin necesidad de tarjeta de crédito, y convierte estos proyectos en paneles listos para tu portafolio hoy mismo.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.