¿Qué es Pyspark?

Interfaz de Python con Apache Spark que permite el procesamiento distribuido de datos a través de operaciones DataFrame, canalizaciones de ML y análisis de transmisión a escala.

por Personal de Databricks

Combina la simplicidad de Python con la potencia de computación distribuida de Spark, ofreciendo DataFrames, consultas SQL y compatibilidad con la API de Pandas para una ingeniería y análisis de datos escalables.
Compatible con Structured Streaming para el procesamiento de datos en tiempo real, MLlib para aprendizaje automático a escala y una integración perfecta con el optimizador Catalyst de Spark y el motor de ejecución Tungsten.
Permite la evaluación diferida y transformaciones inmutables que crean planes de ejecución eficientes, con acciones que activan la computación distribuida en los nodos del clúster para el procesamiento masivo de conjuntos de datos.

¿Qué es PySpark?

Apache Spark está escrito en el lenguaje de programación Scala. PySpark se lanzó para admitir la colaboración entre Apache Spark y Python; en realidad, es una API de Python para Spark. Además, PySpark te ayuda a interactuar con conjuntos de datos distribuidos resistentes (RDD) en Apache Spark y el lenguaje de programación Python. Esto se logró aprovechando la biblioteca Py4j.

Logotipo de PySpark

Py4J es una biblioteca popular que está integrada en PySpark y permite que Python interactúe dinámicamente con objetos de la JVM. PySpark incluye varias bibliotecas para escribir programas eficientes. Además, hay varias bibliotecas externas que también son compatibles. Estos son algunos de ellos:

PySparkSQL

Una biblioteca de PySpark para aplicar análisis de tipo SQL en una gran cantidad de datos estructurados o semiestructurados. También podemos usar consultas SQL con PySparkSQL. También se puede conectar a Apache Hive. También se puede aplicar HiveQL. PySparkSQL es un envoltorio sobre el núcleo de PySpark. PySparkSQL introdujo el DataFrame, una representación tabular de datos estructurados que es similar a la de una tabla de un sistema de gestión de bases de datos relacionales.

MLlib

MLlib es un wrapper de PySpark y es la biblioteca de machine learning (ML) de Spark. Esta biblioteca usa la técnica de paralelismo de datos para almacenar y trabajar con datos. La API de aprendizaje automático que proporciona la biblioteca MLlib es bastante fácil de usar. MLlib admite muchos algoritmos de aprendizaje automático para clasificación, regresión, agrupamiento, filtrado colaborativo, reducción de dimensionalidad y primitivas de optimización subyacentes.

GraphFrames

GraphFrames es una biblioteca de procesamiento de grafos que proporciona un conjunto de APIs para realizar análisis de grafos de forma eficiente, usando el núcleo de PySpark y PySparkSQL. Está optimizado para la computación distribuida rápida. Ventajas de usar PySpark: • Python es muy fácil de aprender e implementar. • Proporciona una API sencilla y completa. • Con Python, la legibilidad del código, el mantenimiento y la familiaridad son mucho mejores. • Incluye varias opciones para la visualización de datos, lo que es difícil de hacer con Scala o Java.

Recursos adicionales

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs