Conjunto de datos
¿Qué es un conjunto de datos?
Un conjunto de datos es una colección estructurada de datos organizados y almacenados en conjunto para su análisis o procesamiento. Los datos dentro de un conjunto de datos suelen estar relacionados de alguna manera y se toman de una sola fuente o están destinados a un solo proyecto. Por ejemplo, un dataset puede contener una colección de datos empresariales (cifras de ventas, información de contacto de los clientes, transacciones, etc.). Un conjunto de datos puede incluir muchos tipos diferentes de datos, desde valores numéricos hasta texto, imágenes o grabaciones de audio. Normalmente, es posible acceder a los datos de un dataset de forma individual, en combinación o gestionarlos como una entidad completa.
Los conjuntos de datos son una herramienta fundamental en la analítica de datos, el análisis de datos y el aprendizaje automático (ML), y proporcionan los datos a partir de los cuales los analistas extraen información valiosa y tendencias. Son esenciales para el ML porque seleccionar el conjunto de datos adecuado para un proyecto de ML es uno de los pasos iniciales más cruciales para entrenar e implementar con éxito un modelo de ML.
Más temas para descubrir

El Gran Libro de Casos de Uso de Aprendizaje Automático: 2.ª edición
Tu guía práctica y completa para poner en práctica el machine learning — además de casos de uso, muestras de código y notebooks.

Aprovecha el potencial de los LLM
Cómo aumentar la eficiencia y reducir costos con IA.

El gran libro de MLOps
Aprende nuevas estrategias de IA generativa y LLMOps.
¿Es data set o dataset?
Existe cierto debate en torno a la palabra dataset y si debería ser una o dos palabras. Merriam-Webster lo registra como una sola palabra, pero otras fuentes, como Dictionary.com, Usa data set. La preferencia de Databricks es dataset.
Conjunto de datos vs. base de datos
También suele haber confusión entre los términos conjunto de datos y base de datos. Si bien una base de datos y un conjunto de datos son términos relacionados que se usan para describir la organización y la administración de los datos, difieren en varios aspectos importantes:
Como se define en la primera sección, un conjunto de datos es una recopilación de datos que se usa para el análisis y el modelado y, por lo general, se organiza en un formato estructurado. Ese formato estructurado podría ser una hoja de cálculo de Excel, un archivo CSV, un archivo JSON u otros formatos. Los datos de un conjunto de datos se pueden organizar de múltiples maneras y crearse a partir de una amplia variedad de fuentes, como una encuesta a clientes, un experimento o una base de datos existente. Un conjunto de datos se puede usar para muchos propósitos, incluido el entrenamiento y la prueba de modelos de machine learning, la visualización de datos, la investigación o el análisis estadístico. Los conjuntos de datos se pueden compartir de forma pública o privada. Un conjunto de datos suele ser más pequeño que una base de datos.
Una base de datos está diseñada para el almacenamiento a largo plazo y la gestión de grandes cantidades de datos organizados que se almacenan electrónicamente, lo que permite acceder, manipular y actualizar los datos fácilmente. En otras palabras, una base de datos es una colección organizada de datos almacenada como múltiples conjuntos de datos. Existen muchos tipos diferentes de bases de datos, como las bases de datos relacionales, las bases de datos de documentos y las bases de datos de clave-valor.
¿Cuáles son ejemplos de conjuntos de datos?
Un conjunto de datos puede incluir números, texto, imágenes, grabaciones de audio o, incluso, descripciones básicas de objetos. Un conjunto de datos se puede organizar de varias formas, incluidas tablas y archivos. Algunos ejemplos de conjuntos de datos son:
- Un conjunto de datos que incluye una lista de todas las ventas de bienes raíces en un área geográfica específica durante un período de tiempo designado
- Un conjunto de datos que contiene información sobre todas las caídas de meteoritos conocidas.
- Un conjunto de datos sobre la calidad del aire regional en un área específica durante un período de tiempo designado
- Un conjunto de datos que incluye la tasa de asistencia de los estudiantes de escuelas públicas desde preescolar hasta el 12.º grado, por grupo de estudiantes y por distrito, durante el año escolar 2021–2022
Conjuntos de datos públicos
Los conjuntos de datos públicos son datos públicos organizados en torno a un tema o asunto, que son accesibles para el público. Los datasets públicos son especialmente valiosos para los científicos de datos porque, por lo general, son gratuitos y proporcionan datos de fácil acceso y descarga que pueden usar para entrenar modelos de ML.
Por ejemplo, la Administración Nacional Oceánica y Atmosférica (NOAA) proporciona datos sobre todo, desde la calidad del agua hasta el cambio climático. Los datos de la vigilancia dependiente automática (ADS-B) muestran el movimiento de las aeronaves comerciales en tiempo real, y la Administración de Servicios Generales de EE. UU. ofrece Data.gov, que incluye más de 200,000 conjuntos de datos y cientos de categorías.
Databricks también proporciona una variedad de datasets de muestra proporcionados por terceros que se pueden usar en el Workspace de Databricks. El uso de dichos conjuntos de datos en coordinación con AI and Machine Learning on Databricks permite a los equipos de ML preparar y procesar datos, agiliza la colaboración entre equipos y estandariza el ciclo de vida completo de ML, desde la experimentación hasta la producción, incluso para la IA generativa y los modelos de lenguaje grandes.
Uso de conjuntos de datos
Hay varias maneras diferentes de usar los conjuntos de datos. Los analistas los usan para explorar y visualizar datos con fines de inteligencia empresarial. Los científicos de datos usan conjuntos de datos para entrenar modelos de ML. Sin embargo, antes de que se puedan usar los datasets, es necesario ingerir los datos en un data lake o un lakehouse mediante procesos de ingeniería de datos como los de extracción, transformación y carga (ETL). ETL permite a los ingenieros extraer datos de diferentes fuentes, transformarlos en un recurso útil y confiable, y cargarlos en los sistemas a los que los usuarios finales pueden acceder y utilizar para resolver problemas empresariales.
Gestión, catalogación y protección de conjuntos de datos
Antes de que los conjuntos de datos se puedan usar, se deben catalogar, gobernar y almacenar de forma segura con un sistema de gobernanza. Implementar una estrategia eficaz de gobernanza de datos permite a las organizaciones hacer que los datos estén fácilmente disponibles para la toma de decisiones basada en datos, mientras se protegen los datos del acceso no autorizado y se garantiza el cumplimiento de los requisitos normativos.
Para abordar los desafíos de la gobernanza de datos, Databricks desarrolló Unity Catalog, una solución de gobernanza unificada para los activos de datos y de IA en el lakehouse. Con Unity Catalog, las organizaciones pueden gobernar sin problemas los datos estructurados y no estructurados, los modelos de machine learning, los notebooks, los dashboards y los archivos en cualquier nube o plataforma. Los científicos de datos, los analistas y los ingenieros pueden usar Unity Catalog para descubrir, acceder y colaborar de forma segura en datos confiables y activos de AI.
Compartir datasets
La mayoría de los científicos de datos no solo quieren recopilar y analizar conjuntos de datos, sino que también quieren compartirlos. El uso compartido de datos fomenta una mayor conexión y colaboración, lo que puede dar como resultado nuevos hallazgos significativos. Delta Sharing es una herramienta de código abierto integrada en Unity Catalog que permite a los científicos y analistas de datos compartir fácilmente datos y recursos de IA entre nubes, regiones y plataformas para generar nuevas fuentes de ingresos e impulsar el valor empresarial sin depender de formatos propietarios, procesos de ETL complejos ni de la costosa replicación de datos.