Ir al contenido principal

PySpark

¿Qué es PySpark?

Apache Spark está escrito en el lenguaje de programación Scala. PySpark se lanzó para admitir la colaboración entre Apache Spark y Python; en realidad, es una API de Python para Spark. Además, PySpark te ayuda a interactuar con conjuntos de datos distribuidos resistentes (RDD) en Apache Spark y el lenguaje de programación Python. Esto se logró aprovechando la biblioteca Py4j.

Logotipo de PySpark

Py4J es una biblioteca popular que está integrada en PySpark y permite que Python interactúe dinámicamente con objetos de la JVM. PySpark incluye varias bibliotecas para escribir programas eficientes. Además, hay varias bibliotecas externas que también son compatibles. Estos son algunos de ellos:

Más temas para descubrir

PySparkSQL

Una biblioteca de PySpark para aplicar análisis de tipo SQL en una gran cantidad de datos estructurados o semiestructurados. También podemos usar consultas SQL con PySparkSQL. También se puede conectar a Apache Hive. También se puede aplicar HiveQL. PySparkSQL es un envoltorio sobre el núcleo de PySpark. PySparkSQL introdujo el DataFrame, una representación tabular de datos estructurados que es similar a la de una tabla de un sistema de gestión de bases de datos relacionales.

MLlib

MLlib es un wrapper de PySpark y es la biblioteca de machine learning (ML) de Spark. Esta biblioteca usa la técnica de paralelismo de datos para almacenar y trabajar con datos. La API de aprendizaje automático que proporciona la biblioteca MLlib es bastante fácil de usar. MLlib admite muchos algoritmos de aprendizaje automático para clasificación, regresión, agrupamiento, filtrado colaborativo, reducción de dimensionalidad y primitivas de optimización subyacentes.

GraphFrames

GraphFrames es una biblioteca de procesamiento de grafos que proporciona un conjunto de APIs para realizar análisis de grafos de forma eficiente, usando el núcleo de PySpark y PySparkSQL. Está optimizado para la computación distribuida rápida. Ventajas de usar PySpark: • Python es muy fácil de aprender e implementar. • Proporciona una API sencilla y completa. • Con Python, la legibilidad del código, el mantenimiento y la familiaridad son mucho mejores. • Incluye varias opciones para la visualización de datos, lo que es difícil de hacer con Scala o Java.  

Volver al glosario