Canalizaciones de ML

Normalmente, al ejecutar algoritmos de aprendizaje automático, se realiza una secuencia de tareas que incluye etapas de preprocesamiento, extracción de características, ajuste del modelo y validación. Por ejemplo, clasificar documentos de texto podría implicar la segmentación y limpieza del texto, la extracción de características y el entrenamiento de un modelo de clasificación con validación cruzada. Aunque hay muchas bibliotecas que podemos usar para cada etapa, conectar todo no es tan fácil como parece, especialmente con conjuntos de datos a gran escala. La mayoría de las bibliotecas de ML no están diseñadas para la computación distribuida o no proporcionan soporte nativo para la création y el ajuste de pipelines.

Más temas para descubrir

El gran libro de MLOps: 2.ª edición

Aprende nuevas estrategias de IA generativa y LLMOps.

Descargar el libro electrónico

eb big book of data engineering 4th ed ty tn

El Gran Libro de la Ingeniería de Datos

Aprende las prácticas esenciales de ingeniería de datos.

Leer ahora

Databricks ocupa el primer puesto en Ejecución y visión

Magic Quadrant™ de Gartner 2025 para Plataformas de ciencia de datos y aprendizaje automático.

Leer ahora

Las canalizaciones de ML son una API de alto nivel para MLlib que se encuentra en "spark.ml" paquete. Una canalización consiste en una secuencia de etapas. Existen dos tipos básicos de etapas de pipeline: Transformer y Estimator. Un Transformer toma un conjunto de datos como entrada y produce un conjunto de datos aumentado como salida. P. ej., un tokenizer es un Transformer que transforma un conjunto de datos con texto en un conjunto de datos con palabras tokenizadas. Un Estimator primero debe ajustarse en el conjunto de datos de entrada para producir un modelo, que es un Transformer que transforma el conjunto de datos de entrada. P. ej., la regresión logística es un Estimator que se entrena con un conjunto de datos con etiquetas y atributos y produce un modelo de regresión logística.

Recursos adicionales

Volver al glosario