Aprendizaje automático vs. aprendizaje profundo

Distinguir entre los algoritmos tradicionales de aprendizaje automático y las redes neuronales profundas que aprenden representaciones jerárquicas.

por Personal de Databricks

Comprender las diferencias entre el aprendizaje automático y el aprendizaje profundo, incluyendo sus algoritmos, casos de uso y requisitos de datos.
Aprender cómo el aprendizaje automático utiliza técnicas estadísticas, mientras que el aprendizaje profundo emplea redes neuronales multicapa.
Descubrir cuándo aplicar el aprendizaje automático tradicional para datos estructurados y el aprendizaje profundo para datos no estructurados, como imágenes, texto y audio.

Comprende las diferencias fundamentales y en qué contexto encaja cada una dentro de la IA

Comprender la jerarquía de la IA, el ML y el DL

En el amplio mundo de la inteligencia artificial (IA), los conceptos de aprendizaje automático y aprendizaje profundo suelen confundirse. La IA es el amplio campo de la construcción de sistemas inteligentes que realizan tareas que requieren una toma de decisiones similar a la humana. El aprendizaje automático (ML) es un tipo de IA en el que los sistemas aprenden patrones a partir de datos históricos para tomar decisiones sin estar programados explícitamente para cada regla. El aprendizaje profundo (DL) es un subconjunto especializado de aprendizaje automático que utiliza redes neuronales multicapa para aprender automáticamente de grandes conjuntos de datos para resolver problemas complejos de percepción y lenguaje.

La siguiente jerarquía explica la relación entre IA, ML y DL:

Reglas y lógica de la inteligencia artificial (IA)

└── El aprendizaje automático (ML) reemplaza las reglas por la experiencia

└── Aprendizaje profundo (DL) aprendizaje automático

El ML y DL son enfoques para lograr la IA. De hecho, la mayoría de los productos de IA de hoy en día son en realidad sistemas de ML, modelos de aprendizaje profundo o pipelines de datos impulsados por ML.

Aspecto	IA	ML	DL
Técnicas	Reglas, lógica, búsqueda	Modelos estadísticos	Redes neuronales
Requisito de datos	Conjuntos de datos de tamaño pequeño a mediano	Conjuntos de datos de tamaño pequeño a mediano	Conjuntos de datos muy grandes
Requiere aprendizaje	No siempre	Siempre	Siempre
Adaptabilidad	A menudo estática	Mejora con más datos	Mejora con más datos
Necesidades de cómputo	Bajo a moderado	Moderado	Alto
Mejor para	Razonamiento, control	Datos estructurados	Datos no estructurados
Ejemplos	Planificación, toma de decisiones	Recomendaciones	Visión, habla, lenguaje

¿Qué es el aprendizaje automático?

El aprendizaje automático funciona al permitir que una computadora aprenda patrones a partir de datos y luego utilice esos patrones para hacer predicciones o tomar decisiones. Mejora con la experiencia sin programación explícita. Los datos son el combustible para el aprendizaje automático. Comienza con un problema o una pregunta que deseas que el sistema responda y emplea los datos recopilados y estandarizados en un modelo (un algoritmo que asigna entradas a salidas). Cada modelo tiene parámetros aprendidos de los datos e hiperparámetros elegidos por humanos.

Los modelos comunes de ML incluyen los siguientes:

Regresión lineal: algoritmos de ML que modelan la relación entre una variable dependiente (lo que deseas predecir) y una o más variables independientes (entradas) ajustando una línea recta (o un hiperplano) a los datos. Este modelo aprende al realizar predicciones sin coeficientes iniciales, midiendo el error entre las predicciones y los valores reales y ajustando los coeficientes para minimizar los errores.
Árbol de decisiones: una clase de algoritmos de ML que realizan predicciones mediante el aprendizaje de un conjunto de reglas tipo si-entonces (if-then) a partir de los datos, para luego dividir los datos en ramas basadas en los valores de las características, formando una estructura similar a la de un árbol. Cada pregunta representa un nodo de decisión, y cada respuesta conduce por una rama hasta llegar a un nodo hoja que proporciona la predicción final.
Bosque aleatorio: un modelo que combina una colección de árboles de decisión para realizar predicciones más precisas y estables. Cada árbol se entrena con una muestra diferente de datos y la predicción final es un promedio o un voto mayoritario sobre el mejor resultado.
Máquinas de vectores de soporte (SVM): Una clase de modelos de ML empleados para clasificación y regresión que encuentran el mejor límite que separa los puntos de datos en diferentes clases.

Los modelos de aprendizaje automático aprenden patrones de forma más eficaz gracias a la ingeniería de características, un proceso de transformación de datos sin procesar en señales útiles para un modelo. Una característica es una variable de entrada (numérica, categórica, fecha/hora, texto) utilizada por un modelo. Las buenas características pueden mejorar la precisión, la interpretabilidad y reducir el tiempo de entrenamiento.

Los cuatro tipos de aprendizaje automático

Aprendizaje supervisado: un enfoque de aprendizaje automático en el que se entrena un modelo utilizando datos etiquetados (datos que incluyen tanto las características de entrada como la salida correcta). Se le muestran ejemplos al modelo y se le indica la respuesta correcta para que aprenda una correspondencia. Las tareas comunes de aprendizaje supervisado incluyen la clasificación (spam vs. no spam o la presencia de enfermedades) o la regresión (predicción de precios, previsiones de ventas).
Aprendizaje no supervisado: aprendizaje automático donde un modelo encuentra y aprende patrones a partir de datos no etiquetados que no tienen una respuesta predefinida. Puede encontrar patrones al agrupar puntos de datos similares, reducir el número de características, encontrar datos anómalos o raros o relaciones entre variables. Los ejemplos del mundo real incluyen segmentación de clientes y detección de anomalías.
Aprendizaje semisupervisado: un enfoque de aprendizaje automático que utiliza una pequeña cantidad de datos etiquetados junto con una gran cantidad de datos sin etiquetar para entrenar un modelo. Los datos etiquetados anclan el aprendizaje, mientras que los datos sin etiquetar ayudan a perfeccionar el límite de decisión. Este enfoque se usa habitualmente para la clasificación de imágenes, el diagnóstico médico y el reconocimiento de voz.
Aprendizaje por refuerzo: un método de aprendizaje automático basado en prueba y error, en el que un agente aprende al interactuar con un entorno, y realiza acciones y recibe recompensas o penalizaciones, en lugar de aprender a partir de ejemplos etiquetados (por ejemplo: juegos, robótica).

¿Qué es el aprendizaje profundo?

El aprendizaje profundo es un enfoque de aprendizaje automático que utiliza redes neuronales artificiales de múltiples capas para aprender automáticamente patrones complejos a partir de grandes cantidades de datos. Se llaman redes neuronales porque imitan la estructura neuronal del cerebro humano. Es uno de los enfoques más potentes para crear sistemas de IA.

Con el aprendizaje profundo, los humanos no diseñan las características de las que aprender, los modelos aprenden representaciones directamente a partir de datos sin procesar usando muchas capas de redes neuronales. Las capas crean una jerarquía de características e incluyen una capa de entrada, varias capas ocultas y una capa de salida. Cada capa aplica pesos, agrega un sesgo y pasa por una activación no lineal.

Tipos comunes de redes neuronales

Redes de alimentación directa: son las redes neuronales más simples y representan la arquitectura fundamental de las redes neuronales. Los datos fluyen en una sola dirección, desde la capa de entrada hacia las capas ocultas y de ahí a la capa de salida; por lo tanto, son ideales para datos estructurados, regresión y clasificación.
Redes neuronales convolucionales (CNN): redes especializadas para datos en forma de cuadrícula. Usa filtros de convolución para detectar patrones como bordes y formas. Es ideal para tareas de reconocimiento de imágenes y visión artificial.
Redes neuronales recurrentes (RNN): redes con bucles de retroalimentación que mantienen un estado oculto, diseñadas para datos secuenciales como la generación de texto, el reconocimiento de voz y la predicción de series temporales.
Redes generativas adversarias (GAN): se utilizan para generar nuevos datos realistas mediante el entrenamiento de dos redes neuronales que compiten entre sí. Una red crea datos falsos y la otra intenta detectarlos, por lo que ambas mejoran a través de la competencia. Los ejemplos incluyen la generación de imágenes, audio y video.

En qué se parecen el aprendizaje automático y el aprendizaje profundo

Tanto el ML como el DL forman parte del ecosistema de la IA y están estrechamente relacionados, ya que el aprendizaje profundo es un subconjunto del aprendizaje automático. Comparten muchos principios fundamentales, flujos de trabajo y objetivos. Ambos aprenden patrones a partir de los datos y buscan hacer predicciones o tomar decisiones basadas en esos datos.

Cuando aprenden a partir de los datos, ambos pueden mejorar su rendimiento al ver más datos en un proceso de aprendizaje iterativo. Y ambos pueden generalizar a partir de esos datos para obtener datos nuevos, nunca vistos. Tanto el ML como el DL requieren entrenamiento sobre datos históricos, validación para ajustar parámetros y pruebas en datos invisibles.

Y ambos pueden aplicarse a problemas de clasificación, regresión y agrupamiento.

Requisitos de datos e ingeniería de características

Mientras que el aprendizaje automático y el aprendizaje profundo tienen muchas similitudes, tienen diferentes requisitos de datos y esfuerzos de ingeniería de características. El ML a menudo funciona bien con conjuntos de datos estructurados pequeños a medianos, pero el rendimiento depende de la calidad de las características, lo que requiere ingeniería de características liderada por humanos para identificar variables relevantes.

El DL depende de grandes cantidades de datos no estructurados (imágenes, texto, audio) y la escala de los ejemplos impacta directamente en el rendimiento, ya que el DL realiza la extracción automática de características con una intervención humana mínima.

El conocimiento del dominio y la calidad de las características son esenciales con el ML, mientras que los modelos aprenden características internamente con el DL, por lo que la escala de datos y la infraestructura se vuelven más importantes.

Potencia de cómputo y tiempo de entrenamiento

Es útil comparar los requerimientos de cómputo y el tiempo de entrenamiento necesarios tanto para ML como para DL, ya que estos son los factores que más afectan el costo, la velocidad de iteración y la viabilidad del producto de sus sistemas. Los modelos de ML tradicionales pueden ejecutarse en CPU estándar con menor capacidad de memoria, mientras que el DL requiere GPU o TPU de alta memoria para un entrenamiento eficiente; por lo tanto, los costos de infraestructura serán mayores con el DL.

Los modelos de ML se entrenan rápidamente para una iteración y experimentación rápidas, mientras que los modelos de DL requieren tiempos de entrenamiento más largos debido a arquitecturas complejas de múltiples capas. Entonces, el costo de entrenamiento, la infraestructura, la energía y la complejidad son mayores con el DL, pero es posible que el ML no funcione para problemas a gran escala.

Interpretabilidad y transparencia

Otros factores para tener en cuenta al comparar el aprendizaje automático y el aprendizaje profundo son la interpretabilidad (la facilidad con la que un humano puede entender por qué un modelo ha realizado una predicción) y la transparencia (la visibilidad y explicabilidad de la lógica interna y el proceso de decisión del modelo).

Los modelos de ML están diseñados para ser transparentes y, a menudo, más interpretables, al mostrar la importancia de las características y permitir el razonamiento paso a paso. Por ejemplo: las reglas tipo si-entonces de los árboles de decisión son legibles por humanos, los coeficientes de la regresión lineal muestran el impacto directo de las características y las razones de probabilidad de la regresión explican la influencia de las variables.

Los modelos de DL actúan más como “cajas negras” desde el punto de vista de la transparencia. No se basan en reglas explícitas ni en características diseñadas por el ser humano. Contienen millones de parámetros y aprenden representaciones jerárquicas y distribuidas, lo que dificulta la comprensión de qué características causan una predicción.

La interpretabilidad es importante para la auditoría y se vuelve fundamental en sectores regulados como la atención médica, las finanzas y el derecho, donde las decisiones de alto riesgo se toman de forma habitual y la confianza es esencial.

Cuándo usar el aprendizaje automático

La guía general es usar ML cuando un problema bien definido involucra patrones en datos que son difíciles de definir con reglas fijas, pero donde el aprendizaje profundo sería innecesario o ineficiente. El ML es adecuado cuando los datos están estructurados y el conjunto de datos es pequeño-mediano, como ocurre con los datos del negocio (previsión de ventas, métricas financieras, registros de clientes).

El ML es efectivo cuando el presupuesto de cómputo es limitado y la iteración rápida es importante (detección de fraude, puntaje crediticio), y para aplicaciones donde se requiere interpretabilidad y explicabilidad (finanzas, atención médica, seguros, legal).

Cuándo usar el aprendizaje profundo

El DL puede sobresalir en problemas que involucran patrones complejos en grandes cantidades de datos diversos y no estructurados, cuando se dispone de GPU/TPU y se tiene el tiempo para respaldarlo. El DL es más adecuado para entradas que son difíciles de modelar con ML tradicional (imágenes, video, audio). El DL es necesario cuando el diseño manual de características es difícil o imposible, pero los datos sin procesar contienen señales útiles. El DL también es adecuado cuando la precisión es más importante que la interpretabilidad y el costo, y el sistema puede tolerar ciclos de entrenamiento más largos.

El DL es especialmente efectivo cuando el aprendizaje por transferencia está disponible a partir de modelos preentrenados (reconocimiento de imágenes y objetos) y el problema involucra percepción o lenguaje (visión artificial, reconocimiento de voz, procesamiento del lenguaje natural, vehículos autónomos y robótica).

Ejemplos de IA del mundo real

¿ChatGPT es IA o ML? ¡La respuesta es sí!

Recuerda que el ML y DL son ambos tipos de IA, y el DL es un subconjunto del ML. En realidad, ChatGPT es un modelo de aprendizaje profundo construido con una red neuronal transformadora muy grande. El modelo GPT (Generative Pre-trained Transformer) está compuesto por capas con millones o incluso miles de millones de parámetros y entrenado con enormes cantidades de datos.

Los sistemas populares de creación de imágenes como DALL-E y Midjourney son modelos de difusión creados con redes neuronales profundas, por lo que ambos encajan en la categoría de DL. Ambos requieren entrenamiento a gran escala para generar imágenes a partir de indicaciones de texto, así como un cálculo intensivo y aprendizaje de representaciones.

Cuando Netflix o Spotify hacen recomendaciones, emplean una combinación de modelos de ML tradicionales y modelos de DL que trabajan juntos. Estos sistemas analizan el comportamiento de los usuarios, los atributos del contenido y las similitudes entre ambos para decidir qué contenido mostrar, en qué orden y a qué usuarios. El ML se emplea para clasificación, personalización y pruebas A/B. El DL se usa para modelar el gusto del usuario, comprender el contenido y aprender las relaciones entre usuarios y elementos a gran escala.

Estos productos se ven así en la jerarquía del sistema de IA:

Inteligencia artificial (IA)

└── Aprendizaje automático (ML)

└── Modelos de filtrado colaborativo (Netflix/Spotify)

└── Aprendizaje profundo (DL)

└── Modelos de difusión (DALL· E, Midjourney)

── Modelos de arquitectura Transformer (ChatGPT/GPT, Netflix/Spotify)

Elegir el enfoque adecuado: una lista de verificación para la toma de decisiones

Tamaño del conjunto de datos:
pequeño/estructurado = ML
grande/no estructurado = DL

Necesidad de interpretabilidad
Alto = ML
Bajo = DL es aceptable

Recursos de cómputo disponibles
Limitado = ML
Robusto = DL es posible

Tipo de problema
Datos tabulares = ML
Imágenes/texto/audio = DL

Hojas de ruta de aprendizaje para ML vs. DL

Esta es una hoja de ruta práctica para aprender, empezando con algunos fundamentos compartidos, ya que el DL se basa en los fundamentos del ML. También ten en cuenta que tu camino específico depende del problema concreto que debas resolver y de los recursos disponibles para tu sistema.

Fundamentos compartidos:

Aprender programación básica y preparación de datos, como fundamentos de Python, NumPy, Polars/pandas y visualización de datos (matplotlib, seaborn).
Conoce los fundamentos de las matemáticas como álgebra lineal, probabilidad y estadística, y cálculo básico
Aprender lo básico del manejo de datos como limpieza de datos, ingeniería de características, entrenamiento, validación y pruebas.

Ruta de aprendizaje automático:

Conceptos básicos como aprendizaje supervisado vs. aprendizaje no supervisado, compensación entre sesgo y varianza, sobreajuste y regularización, y métricas de evaluación.
Concentrarse en modelos tradicionales de aprendizaje automático (regresión lineal y logística, árboles de decisión, bosques aleatorios, SVM).
Bibliotecas principales (scikit-learn)
Ingeniería de características, que incluye la codificación de variables categóricas, el escalado y la normalización, las características basadas en tiempo y las agregaciones.
Técnicas de ajuste y validación de modelos, como la validación cruzada, el ajuste de hiperparámetros, la selección de características y el análisis de errores.
Tareas de ML de producción, lo que incluye implementación de modelos, supervisión y detección de desviaciones, reentrenamiento de procesos y explicabilidad.

Ruta del aprendizaje profundo:

Fundamentos de redes neuronales, incluyendo perceptrón, funciones de activación, funciones de pérdida, retropropagación y optimización
Arquitecturas principales de DL con énfasis en redes feedforward, CNN (imágenes), RNN/LSTM/GRU (secuencias) y modelos de arquitectura Transformer (NLP, visión).
Marcos de aprendizaje automático (Pytorch, TensorFlow, Keras)
Entrenamiento (entrenamiento de GPU, entrenamiento distribuido, aprendizaje combinado de precisión y transferencia)

Recuerda que el DL se basa en los fundamentos de ML, así que comienza con los conceptos básicos de ML independientemente de tu objetivo final.

Cómo tomar la decisión correcta para tus necesidades

El aprendizaje automático y el aprendizaje profundo son dos enfoques para lograr IA, dependiendo de tus necesidades de datos, demandas de cómputo, de interpretabilidad y casos de uso.

Los casos de uso de ML se caracterizan por el manejo de conjuntos de datos estructurados, tabulares y de menor tamaño. A menudo tienen altas necesidades de interpretabilidad/explicabilidad y tienen menores requisitos de cómputo y compromisos de tiempo.

Los casos de uso de DL involucran patrones complejos, y las grandes cantidades de datos diversos y no estructurados y la precisión son más importantes que la interpretabilidad. Se necesita una infraestructura de cómputo mucho mayor y una inversión de tiempo para capacitar modelos de DL.

La mejor opción depende de tu problema específico y de los recursos disponibles. Ten en cuenta que ambas tecnologías continúan evolucionando, con arquitecturas de modelos más robustas que consumen menos memoria, entrenamientos más eficientes y mejores procesos de evaluación y pruebas. Hay una convergencia creciente en IA, donde el ML, el DL y las reglas se combinan en sistemas híbridos. Las nuevas aplicaciones y las demandas regulatorias y de gobernanza también influirán en la forma en que se construyen e implementan los modelos.

El ML no reemplaza al DL. Ambos siguen evolucionando en paralelo.

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs