Canalizaciones de ML
Normalmente, al ejecutar algoritmos de aprendizaje automático, se realiza una secuencia de tareas que incluye etapas de preprocesamiento, extracción de características, ajuste del modelo y validación. Por ejemplo, clasificar documentos de texto podría implicar la segmentación y limpieza del texto, la extracción de características y el entrenamiento de un modelo de clasificación con validación cruzada. Aunque hay muchas bibliotecas que podemos usar para cada etapa, conectar todo no es tan fácil como parece, especialmente con conjuntos de datos a gran escala. La mayoría de las bibliotecas de ML no están diseñadas para la computación distribuida o no proporcionan soporte nativo para la création y el ajuste de pipelines.
Más temas para descubrir
Las canalizaciones de ML son una API de alto nivel para MLlib que se encuentra en "spark.ml" paquete. Una canalización consiste en una secuencia de etapas. Existen dos tipos básicos de etapas de pipeline: Transformer y Estimator. Un Transformer toma un conjunto de datos como entrada y produce un conjunto de datos aumentado como salida. P. ej., un tokenizer es un Transformer que transforma un conjunto de datos con texto en un conjunto de datos con palabras tokenizadas. Un Estimator primero debe ajustarse en el conjunto de datos de entrada para producir un modelo, que es un Transformer que transforma el conjunto de datos de entrada. P. ej., la regresión logística es un Estimator que se entrena con un conjunto de datos con etiquetas y atributos y produce un modelo de regresión logística.


