Ir al contenido principal

¿Qué es la biblioteca de aprendizaje automático?

Cómo Spark MLlib proporciona algoritmos y utilidades de ML escalables para que los equipos puedan entrenar, evaluar e implementar modelos en grandes conjuntos de datos con facilidad

4 Personas AI Agents 5a

Summary

  • Descubra cómo MLlib de Apache Spark se centra en la simplicidad, la escalabilidad y la integración para que pueda centrarse en los datos y modelos en lugar de en los detalles de los sistemas distribuidos.
  • Explore los algoritmos y utilidades principales de MLlib, desde la clasificación y la regresión hasta la agrupación en clústeres, el filtrado colaborativo y la reducción de dimensionalidad.
  • Vea cómo MLlib se integra con Spark SQL, Streaming y DataFrames, y admite múltiples lenguajes para impulsar flujos de trabajo de aprendizaje automático integrales.

La Biblioteca de Machine Learning (MLlib) de Apache Spark está diseñada para ofrecer simplicidad, escalabilidad y una fácil integración con otras herramientas. Con la escalabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los científicos de datos pueden centrarse en sus problemas de datos y modelos en lugar de resolver las complejidades que rodean a los datos distribuidos (como la infraestructura, las configuraciones, etc.). Construida sobre Spark, MLlib es una biblioteca de aprendizaje automático escalable que consta de algoritmos y utilidades de aprendizaje comunes, incluidas la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de la dimensionalidad y primitivas de optimización subyacentes. Spark MLlib se integra a la perfección con otros componentes de Spark, como Spark SQL, Spark Streaming y DataFrames, y se instala en el tiempo de ejecución de Databricks. La biblioteca se puede usar en Java, Scala y Python como parte de las aplicaciones de Spark, para que pueda incluirla en flujos de trabajo completos. MLlib permite el preprocesamiento, la preparación, el entrenamiento de modelos y la realización de predicciones a escala sobre los datos. Incluso puede usar modelos entrenados en MLlib para hacer predicciones en Structured Streaming. Spark proporciona una API de aprendizaje automático sofisticada para realizar una variedad de tareas de aprendizaje automático, desde la clasificación hasta la regresión, y desde la agrupación en clústeres hasta el aprendizaje profundo.

Recursos adicionales

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

4 Personas Analytics AIBI 3a

Fundamentos de Data + AI

17 min de lectura

O que é Narrativa de Dados?

4 Personas Analytics AIBI 2a

Fundamentos de Data + AI

16 min de lectura

O que é Extrair, Carregar e Transformar (ELT)?