Biblioteca de aprendizaje automático (MLlib)
La Biblioteca de Machine Learning (MLlib) de Apache Spark está diseñada para ofrecer simplicidad, escalabilidad y una fácil integración con otras herramientas. Con la escalabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los científicos de datos pueden centrarse en sus problemas de datos y modelos en lugar de resolver las complejidades que rodean a los datos distribuidos (como la infraestructura, las configuraciones, etc.). Construida sobre Spark, MLlib es una biblioteca de aprendizaje automático escalable que consta de algoritmos y utilidades de aprendizaje comunes, incluidas la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de la dimensionalidad y primitivas de optimización subyacentes. Spark MLlib se integra a la perfección con otros componentes de Spark, como Spark SQL, Spark Streaming y DataFrames, y se instala en el tiempo de ejecución de Databricks. La biblioteca se puede usar en Java, Scala y Python como parte de las aplicaciones de Spark, para que pueda incluirla en flujos de trabajo completos. MLlib permite el preprocesamiento, la preparación, el entrenamiento de modelos y la realización de predicciones a escala sobre los datos. Incluso puede usar modelos entrenados en MLlib para hacer predicciones en Structured Streaming. Spark proporciona una API de aprendizaje automático sofisticada para realizar una variedad de tareas de aprendizaje automático, desde la clasificación hasta la regresión, y desde la agrupación en clústeres hasta el aprendizaje profundo.
Recursos adicionales
- Producto MLflow gestionado
- Gartner nombra a Databricks Líder del Cuadrante Mágico en plataformas de ciencia de datos y aprendizaje automático
- Trasladar un bosque aleatorio para la lucha contra el fraude de scikit-learn a Spark con MLlib, MLflow y Jupyter
- ML práctico | Evento virtual
- Capacitación gratuita: Creación y despliegue de modelos de machine learning