Ir al contenido principal

Biblioteca de aprendizaje automático (MLlib)

Prueba Databricks gratis

La Biblioteca de Machine Learning (MLlib) de Apache Spark está diseñada para ofrecer simplicidad, escalabilidad y una fácil integración con otras herramientas. Con la escalabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los científicos de datos pueden centrarse en sus problemas de datos y modelos en lugar de resolver las complejidades que rodean a los datos distribuidos (como la infraestructura, las configuraciones, etc.). Construida sobre Spark, MLlib es una biblioteca de aprendizaje automático escalable que consta de algoritmos y utilidades de aprendizaje comunes, incluidas la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de la dimensionalidad y primitivas de optimización subyacentes. Spark MLlib se integra a la perfección con otros componentes de Spark, como Spark SQL, Spark Streaming y DataFrames, y se instala en el tiempo de ejecución de Databricks. La biblioteca se puede usar en Java, Scala y Python como parte de las aplicaciones de Spark, para que pueda incluirla en flujos de trabajo completos. MLlib permite el preprocesamiento, la preparación, el entrenamiento de modelos y la realización de predicciones a escala sobre los datos. Incluso puede usar modelos entrenados en MLlib para hacer predicciones en Structured Streaming. Spark proporciona una API de aprendizaje automático sofisticada para realizar una variedad de tareas de aprendizaje automático, desde la clasificación hasta la regresión, y desde la agrupación en clústeres hasta el aprendizaje profundo.

Recursos adicionales

Volver al glosario