Un modelo de aprendizaje automático es un programa que puede encontrar patrones o tomar decisiones a partir de un conjunto de datos nunca antes visto. Por ejemplo, en el procesamiento del lenguaje natural, los modelos de aprendizaje automático pueden analizar y reconocer correctamente la intención detrás de oraciones o combinaciones de palabras nunca antes escuchadas. En el reconocimiento de imágenes, se puede enseñar a un modelo de aprendizaje automático a reconocer objetos, como coches o perros. Un modelo de aprendizaje automático puede realizar estas tareas si lo "entrenas" con un gran conjunto de datos. Durante el entrenamiento, el algoritmo de aprendizaje automático se optimiza para encontrar ciertos patrones o resultados a partir del conjunto de datos, dependiendo de la tarea. El resultado de este proceso, frecuentemente un programa informático con reglas y estructuras de datos específicas, se denomina modelo de aprendizaje automático.
Un algoritmo de aprendizaje automático es un método matemático para encontrar patrones en un conjunto de datos. Los algoritmos de aprendizaje automático suelen basarse en estadísticas, cálculo y álgebra lineal. Algunos ejemplos populares de algoritmos de aprendizaje automático incluyen regresión lineal, árboles de decisión, bosque aleatorio y XGBoost.
El proceso de ejecutar un algoritmo de aprendizaje automático en un conjunto de datos (llamado datos de entrenamiento) y optimizar el algoritmo para encontrar ciertos patrones o salidas se denomina entrenamiento de modelos. La función resultante con reglas y estructuras de datos se denomina modelo de aprendizaje automático entrenado.
En general, la mayoría de las técnicas de aprendizaje automático se pueden clasificar en aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo.
En el aprendizaje automático supervisado, se le proporciona al algoritmo un conjunto de datos de entrada y se le recompensa o se optimiza para cumplir con un conjunto de resultados específicos. Por ejemplo, el aprendizaje automático supervisado se utiliza ampliamente en el reconocimiento de imágenes, en el que se usa una técnica llamada clasificación. El aprendizaje automático supervisado también se usa para predecir datos demográficos, como el crecimiento de la población o los indicadores de salud, mediante una técnica llamada regresión.
En el aprendizaje automático no supervisado, se proporciona al algoritmo un conjunto de datos de entrada, pero no se recompensa ni se optimiza para obtener resultados específicos, sino que se entrena para agrupar objetos por características comunes. Por ejemplo, los motores de recomendación de las tiendas en línea se basan en el aprendizaje automático no supervisado, concretamente en una técnica denominada agrupamiento.
En el aprendizaje por refuerzo, el algoritmo se entrena a sí mismo mediante numerosos experimentos de prueba y error. El aprendizaje por refuerzo se produce cuando el algoritmo interactúa continuamente con el entorno, en lugar de basarse en datos de entrenamiento. Uno de los ejemplos más populares de aprendizaje por refuerzo es la conducción autónoma.
Existen muchos modelos de aprendizaje automático, y casi todos se basan en ciertos algoritmos de aprendizaje automático. Los algoritmos populares de clasificación y regresión caen bajo el aprendizaje automático supervisado, y los algoritmos de agrupamiento generalmente se implementan en escenarios de aprendizaje automático no supervisado.
Un árbol de decisiones es un enfoque predictivo en aprendizaje automático para determinar a qué clase pertenece un objeto. Como su nombre lo indica, un árbol de decisión es un diagrama de flujo en forma de árbol donde la clase de un objeto se determina paso a paso mediante ciertas condiciones conocidas.
Un árbol de decisión visualizado en Databricks Lakehouse. Fuente: https://www.databricks.com/blog/2019/05/02/detecting-financial-fraud-at-scale-with-decision-trees-and-mlflow-on-databricks.html
La regresión en la ciencia de datos y el aprendizaje automático es un método estadístico que permite predecir resultados en base a un conjunto de variables de entrada. El resultado suele ser una variable que depende de una combinación de las variables de entrada.
Un modelo de regresión lineal realizado en Databricks Lakehouse. Fuente: https://www.databricks.com/blog/2015/06/04/simplify-machine-learning-on-spark-with-databricks.html
Un clasificador es un algoritmo de aprendizaje automático que asigna un objeto como miembro de una categoría o grupo. Por ejemplo, los clasificadores se utilizan para detectar si un correo electrónico es spam o si una transacción es fraudulenta.
¡Muchos! El aprendizaje automático es un campo en evolución y siempre se están desarrollando más modelos de aprendizaje automático.
El modelo de aprendizaje automático más adecuado para una situación específica depende del resultado deseado. Por ejemplo, para predecir el número de compras de vehículos en una ciudad a partir de datos históricos, una técnica de aprendizaje supervisado como la regresión lineal podría ser la más útil. Por otro lado, para identificar si un cliente potencial en esa ciudad compraría un vehículo, dados sus ingresos e historial de desplazamientos, un árbol de decisiones podría ser la mejor opción.
El despliegue de modelos es el proceso de hacer disponible un modelo de aprendizaje automático para su uso en un entorno objetivo, ya sea para pruebas o producción. El modelo suele integrarse con otras aplicaciones del entorno (como bases de datos e interfaces de usuario) a través de APIs. El despliegue es la etapa tras la cual una organización puede realmente obtener un retorno de la gran inversión realizada en el desarrollo de modelos.
Un ciclo de vida completo de un modelo de aprendizaje automático en el Databricks Lakehouse. Fuente: https://www.databricks.com/blog/2019/09/18/productionizing-machine-learning-from-deployment-to-drift-detection.html
Los modelos de aprendizaje profundo son una clase de modelos de aprendizaje automático que imitan la forma en que los humanos procesan la información. El modelo consta de varias capas de procesamiento (de ahí el término 'profundo') para extraer características de alto nivel de los datos proporcionados. Cada capa de procesamiento transmite una representación más abstracta de los datos a la siguiente capa, y la capa final proporciona una visión más similar a la humana. A diferencia de los modelos tradicionales de ML que requieren que los datos sean etiquetados, los modelos de aprendizaje profundo pueden ingerir grandes cantidades de datos no estructurados. Se emplean para realizar funciones más humanas, como el reconocimiento facial y el procesamiento del lenguaje natural.
Una representación simplificada del aprendizaje profundo. Fuente: https://www.databricks.com/discover/pages/the-democratization-of-artificial-intelligence-and-deep-learning
Un modelo de aprendizaje automático de series temporales es aquel en el que una de las variables independientes es una longitud sucesiva de tiempo (minutos, días, años, etc.) y tiene una relación con la variable dependiente o predicha. Los modelos de aprendizaje automático de series temporales se utilizan para predecir eventos temporales, como por ejemplo: el tiempo la semana próxima, el número esperado de clientes en un mes futuro, la orientación de ingresos para el año próximo, etc.
