Ir al contenido principal

Tutorial: tres proyectos gratuitos de análisis con Databricks que puedes realizar en una tarde

Una introducción práctica a Databricks Free Edition a través de tres proyectos de análisis reales, listos para tu portafolio, que incluyen datos, dashboards, SQL e información impulsada por IA.

Tutorial: 3 Free Databricks Analytics Projects You Can Do In An Afternoon

Publicado: February 5, 2026

Producto13 min de lectura

Summary

  • Tres proyectos de análisis para principiantes que puede completar en una tarde con Databricks Free Edition, sin necesidad de tarjeta de crédito.
  • Cómo importar y analizar conjuntos de datos públicos usando paneles de AI/BI, consultas en lenguaje natural, funciones de AI y pronósticos sencillos de ML.
  • Ejemplos prácticos y listos para el portafolio (paneles y código) que ayudan a estudiantes, a quienes buscan empleo y a usuarios de BI a crear artefactos de análisis reales que puedan mostrar.

¿Quiere un proyecto de análisis real que pueda compartir públicamente, del que pueda hablar en entrevistas o que pueda añadir a su currículum o portafolio, todo ello sin necesidad de una tarjeta de crédito?

Databricks Free Edition brinda a estudiantes, jóvenes profesionales y curiosos de la IA acceso a las mismas herramientas de datos e IA que se utilizan en las empresas líderes, con la capacidad de computación adecuada para proyectos personales, y el dashboard de IA/BI y las herramientas de análisis de Databricks son un excelente punto de partida. En este blog, veremos cómo importar algunos datasets públicos para analizarlos, crear un dashboard pulido y contar una historia clara sobre las tendencias y los insights que se esconden en ellos.

Ya sea que seas un usuario avanzado de hojas de cálculo que busca mejorar sus habilidades con SQL y Python, o un ingeniero de BI experimentado que está probando el análisis impulsado por IA, estos proyectos están diseñados para ayudarte a crear algo tangible y rápido. Si desea profundizar, puede explorar la capacitación de AI/BI gratuita y a su propio ritmo de Databricks, los cursos exhaustivos de creación de AI/BI o unirse a una sesión de incorporación gratuita en vivo. También puedes acceder a docenas de otras demos públicas instalables aquí.

Configuración

Si aún no tienes una cuenta, puedes registrarte en Databricks Free Edition aquí, sin necesidad de tarjeta de crédito ni número de teléfono. Obtienes acceso gratuito y permanente a Databricks para experimentar y aprender con Databricks Free Edition. Nota: La edición gratuita es para uso personal, no para producción ni uso comercial. Si estás buscando una plataforma de datos de nivel de producción y con soporte completo para tu empresa, ponte en contacto con Databricks aquí.

Un último consejo antes de empezar: si tiene errores o se atasca en algún momento, el Asistente de Databricks (el diamante púrpura en la esquina superior derecha) es increíblemente útil para depurar, generar SQL y explicar conceptos sobre la marcha.

Una vez que la configuración está lista, ¡comencemos!

1. Analizar una panadería de galletas (simulada)

Empezaremos con un calentamiento fácil. Para una pequeña empresa, estar al tanto de las operaciones y las tendencias es fundamental para el éxito. El dueño de una pequeña empresa podría buscar información, como encontrar el producto más vendido, preguntar cuáles son las ubicaciones con mejor rendimiento o pronosticar cómo podrían ser las ventas el próximo año.

Cada espacio de trabajo de Databricks incluye un conjunto de datos de muestra preinstalados en el catálogo «samples», que constituye un excelente punto de partida para experimentar con nuevas funciones. El conjunto de datos simulados de proveedores, reseñas y transacciones de «bakehouse» es un buen lugar para practicar cómo contar la historia del rendimiento de «nuestra» pequeña empresa. Puedes encontrar el conjunto de datos en la sección «catálogo» de la barra lateral izquierda del menú de Databricks, que es el núcleo de cada espacio de trabajo y te permite explorar los conjuntos de datos disponibles para su análisis.

En este caso, puedes expandir el catálogo «samples» y el esquema «bakehouse» para encontrar los datos.

Para empezar, cree un nuevo panel haciendo clic en “new->Dashboard” en la esquina superior izquierda del espacio de trabajo. Luego, en la pestaña “data” del panel, seleccione una de las tablas usando SQL como se muestra a continuación (o elíjala en el selector de tablas de la UI):

En el lienzo del panel, agregue visualizaciones y texto que le ayuden a contar una historia clara. Por ejemplo, podría usar gráficos circulares para la composición (como la mezcla de productos), gráficos de líneas para las tendencias (como las ventas a lo largo del tiempo) y contadores para destacar cifras clave, como el total de transacciones o ingresos.

El dataset Bakehouse también incluye reseñas de clientes simuladas, lo que lo convierte en un lugar excelente para probar el análisis asistido por IA utilizando la función AI_Query(). Esto crea un nuevo dataset al aplicar un modelo de IA directamente a tus datos — en este caso, clasificando cada reseña como positiva, negativa o neutral. También podrías modificar el prompt para generar una respuesta automática para cada reseña (y puedes experimentar pidiendo diferentes tonos de voz).

Desafío de siguiente nivel: ¿Puedes encontrar una forma de aplicar otra función de IA como ai_classify() o ai_gen()? ¿Puedes ajustar el prompt de AI_Query() para que cree comentarios para el dashboard? ¿O respuestas automáticas para las reseñas? ¿Te animas a ir más allá y construir un agente que genere automáticamente textos de marketing basándose en las mejores reseñas, como lo hizo Kasey Uhlenhuth en el Data & AI Summit 2024?

2. Calcula tu renta

Los datos de vivienda suelen ser un excelente punto de partida para poner a prueba tus habilidades de análisis: hay muchas correlaciones fuertes por encontrar, como el clima y las tasas de interés, y existe una gran cantidad de datos de alta calidad publicados por fuentes oficiales (a menudo gubernamentales). Por dar un par de ejemplos, los conjuntos de datos abiertos de Zillow Research ofrecen excelentes datos sobre la vivienda en EE. UU., mientras que la Oficina de Estadísticas Nacionales del gobierno del Reino Unido proporciona datos censales de alta calidad. Las preguntas de análisis comunes son del tipo: “¿Qué estado/provincia tiene las tasas de crecimiento más altas?”, “¿Dónde hay más construcciones nuevas?”, o “¿Cuál es la relación entre los costos de la vivienda y las tasas de interés?”.

Mi favorito personal es un conjunto de datos de “precios de alquiler solicitados” del portal de Gobierno Abierto del Gobierno de Canadá, que contiene un conjunto de alquileres anunciados con atributos como año, área metropolitana, número de habitaciones, etc. Me parece que la forma en que los datos tienen los años dispuestos en filas individuales facilita el filtrado y el análisis.

Para incorporar los datos a tu espacio de trabajo, descarga el conjunto de datos desde el portal, extrae el archivo de datos del zip (“46100092.csv”), luego, haz clic en el botón “Cargar datos” en la página de inicio de tu espacio de trabajo para seguir un pequeño asistente para analizar el formato CSV en una tabla.

De forma predeterminada, la tabla resultante recibirá el mismo nombre que el archivo técnico, así que no pierdas de vista la oportunidad de cambiarle el nombre por algo más significativo, como «Datos_vivienda». Una vez creado, utiliza la sección «catálogo» del espacio de trabajo para encontrarlo y, a continuación, crea un panel de control con el botón «crear» para obtener uno que ya esté preconfigurado con un esqueleto alrededor del conjunto de datos.

Para mejorar el panel de control inicial, puedes agregar otras secciones y comparaciones que aporten contexto y color al análisis. Podrías considerar comparar los alquileres medios o el crecimiento en otras ciudades, o examinar la proporción de viviendas de un dormitorio con respecto a otros tipos de viviendas. ¿Cuál es la ciudad más cara? Recuerda añadir también filtros para que los usuarios puedan centrarse en las ciudades o tipos de unidades que les interesen.

En algunos casos, puede que necesite escribir una consulta SQL diferente o incorporar otros datos. Recuerde que Databricks Assistant (el diamante morado de la esquina superior derecha) puede serle de gran ayuda. En mi ejemplo, le pedí al Asistente que agregara la latitud/longitud de las ciudades para poder crear la vista de mapa.

Para generar una predicción, empieza con un gráfico de líneas normal que tenga el eje x como fecha de referencia y el precio de venta (valor) como eje y. A continuación, busca el botón «Añadir previsión» en la barra lateral. Esto añadirá una nueva visualización de pronósticos al lienzo de tu panel, basada en un nuevo conjunto de datos SQL con la función SQL «AI_Forecast()» de Databricks, que llama a un modelo de aprendizaje automático de series temporales y lo aplica a tus datos. Esta función beta aún está en desarrollo (¡nos encantaría recibir tus comentarios!), pero sigue siendo un punto de partida útil para aplicar el aprendizaje automático a un caso de uso real. Recuerda también que Databricks Assistant siempre puede ayudarte a crear tu propio SQL personalizado para nuevos conjuntos de datos.

Desafío de siguiente nivel: Si bien AI_Forecast() es ideal para una predicción de referencia rápida, una más precisa implicaría combinar otros puntos de datos y aplicar un algoritmo de machine learning personalizado. Puedes ver cómo sería una solución completa de ese tipo (en este caso, para predecir el mantenimiento de las turbinas eólicas) en nuestro sitio de demos de Databricks.

3. Busque el rodaje de una película para observar

En las ciudades que se utilizan con frecuencia como escenario para películas, es posible que tengas la suerte de encontrar camiones de rodaje, asistentes de producción y pequeñas cabinas de dirección alrededor de edificios históricos o zonas pintorescas de la ciudad. Antes de que las productoras cinematográficas puedan bloquear el acceso a la propiedad pública para estos rodajes, deben obtener permisos de filmación, que luego son publicados en conjuntos de datos abiertos por las agencias gubernamentales.

Aunque no tiene permisos a futuro, uno de los mejores ejemplos de este tipo de conjunto de datos es la lista del Portal de Datos Abiertos de la Ciudad de Nueva York para los permisos de filmación. Enumera el tipo de rodaje (es decir, noticias, largometraje o serie) junto con la hora de inicio y finalización del rodaje, el distrito y el código postal. Al analizar y desglosar el conjunto de datos, puedes identificar las ubicaciones más comunes y, con suerte, ver a alguna estrella trabajando.

Al igual que en los ejemplos anteriores, debemos empezar cargando los datos en Databricks. El portal de datos abiertos de la ciudad de Nueva York te permite descargar fácilmente el archivo .csv. e importarlo a través de la opción «subir datos» en la interfaz de usuario, tal y como hicimos en los ejercicios anteriores. Sin embargo, una característica interesante de este conjunto de datos es que se actualiza a diario. Obtengamos esos datos mediante programación para poder ejecutarlos según un calendario. Eso se acerca mucho más a cómo se abordaría en un contexto empresarial.

Databricks facilita mucho la ejecución del Python que necesitamos a través de Notebooks. En este caso, crea un notebook (nuevo -> notebook en la esquina superior izquierda), copia y pega el código de abajo y presiona ejecutar para descargar el CSV en tu espacio de trabajo y procesarlo en una tabla. Recuerda que si tienes problemas, ¡siempre puedes usar el Asistente de Databricks (a través del diamante morado) para que te ayude!

Esta primera parte del código crea un volumen (un lugar donde almacenar archivos arbitrarios) y, a continuación, descarga el conjunto de datos utilizando la biblioteca URLLib de Python. ¡No dudes en modificar los nombres del catálogo y del esquema para adaptarlos a tu estilo!

Este segundo fragmento de código toma el archivo sin procesar y crea una tabla llamada «film_permits» que podemos usar en tu panel de control. Si necesitas, pide a tu asistente que te lo explique.

Si funcionó correctamente, debería poder encontrar la tabla a través de la sección del catálogo del espacio de trabajo o abriendo la barra lateral del explorador de datos (el icono de las tres figuras) en el notebook, y luego expandiendo el catálogo databricks_demo y el esquema open_nyc para ver la tabla. Es posible que tenga que pulsar el botón “actualizar” si ya lo tenía abierto.

Recordatorio: si tienes algún problema con el código, recuerda que siempre puedes abandonar el enfoque del código e importar los datos manualmente descargándolos del portal y subiéndolos a través del botón «Subir datos» en la página de inicio de tu espacio de trabajo.

Una vez que hayas cargado la tabla, ¡es hora de analizar los datos y presentar una historia! Puedes comprobar las tendencias con un gráfico de líneas: ¿hay más rodajes de series o de largometrajes? ¿Eso cambia con el tiempo? O podrías pensar en la distribución con un gráfico de barras o circular: ¿las locaciones de rodaje de noticias o comerciales se superponen mucho con las de las películas?

Si intentas crear una visualización de mapa, es posible que notes que, si bien los permisos de filmación tienen un código postal, la visualización de mapa del dashboard de IA/BI requiere atributos de latitud y longitud. Afortunadamente, los conjuntos de datos de mapeo de código postal a coordenadas son fáciles de encontrar en línea y se pueden incorporar al dashboard usando el Asistente. Podrías descargar este conjunto de datos abierto (con licencia Creative Commons) y luego crear un nuevo conjunto de datos en tu dashboard, pidiéndole al Asistente que genere una consulta combinada. Este es el prompt que usé (ajústalo a los nombres específicos de tu catálogo y tabla):

¡Y aquí tienes una versión de cómo podría quedar tu dashboard final!

Desafío: ¿Qué otros datos de OpenNYC podrías superponer? ¿Quizás los volúmenes de taxis o de viajes compartidos? ¿Puntos de referencia importantes? Si participas activamente en política, ¿hay algún análisis que impulse tu causa? Otras ciudades y estados ofrecen conjuntos de datos abiertos similares, como el conjunto de datos Building Energy Benchmark de Seattle sobre emisiones, que podría resultarte más familiar. 

¿Puedes ampliar el análisis geoespacial utilizandolas «funciones ST»nativas de Databricks para buscar otros puntos más cercanos?

Conclusión

Mi parte favorita del análisis son los momentos de inspiración que se obtienen al dejarse llevar por la curiosidad, y espero que estos ejemplos le hayan aportado algunas ideas. Si desea obtener más información o decide prepararse para una certificación que pueda incluir en su currículum, puede acceder al curso de formación general gratuito y a su propio ritmo de AI/BI de Databricks aquí, a un curso de formación para autores más detallado aquí, o unirse a una clase de incorporación gratuita en vivo. El sitio de documentación de Databricks también es un excelente lugar para consultar sobre características específicas

Si deseas importar cualquiera de los paneles de control de ejemplo de este blog, puedes consultar este repositorio para obtener el código fuente. Las especificaciones del panel de control de IA/BI son solo json, así que descarga el archivo e impórtalo a través del menú desplegable «importar» en la página de inicio del panel de control.

Por último, puedes encontrar docenas de demos instalables que van desde ML hasta la creación de dashboards y la IA agéntica en el Centro de demos de Databricks. Pruebe algo nuevo o comparta lo que ha creado con la comunidad de Databricks en su plataforma de redes sociales favorita. ¡Feliz hacking!

Empieza a crear con Databricks Free Edition

Crea tu espacio de trabajo gratuito—no se requiere tarjeta de crédito— y convierte estos proyectos en dashboards listos para tu portafolio hoy mismo.

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks