Direkt zum Hauptinhalt

Was ist PySpark?

Die Python-Schnittstelle zu Apache Spark ermöglicht verteilte Datenverarbeitung über DataFrame-Operationen, ML-Pipelines und Streaming-Analysen in großem Umfang.

4 Personas AI Agents 4a

Summary

  • Kombiniert die Einfachheit von Python mit der verteilten Rechenleistung von Spark und bietet DataFrames, SQL-Abfragen und Pandas-API-Kompatibilität für skalierbares Data Engineering und Analytics.
  • Unterstützt Structured Streaming für Echtzeit-Datenverarbeitung, MLlib für maschinelles Lernen im großen Maßstab und die nahtlose Integration mit Sparks Catalyst-Optimierer und der Tungsten-Ausführungs-Engine.
  • Ermöglicht verzögerte Auswertung und unveränderliche Transformationen, die effiziente Ausführungspläne erstellen. Aktionen lösen dabei verteilte Berechnungen auf Clusterknoten für die Verarbeitung massiver Datensätze aus.

Was ist PySpark?

Apache Spark ist in der Programmiersprache Scala geschrieben. PySpark soll vor allem die gemeinsame Nutzung von Apache Spark und Python unterstützen. Im Grunde genommen handelt es sich also um eine Python-API für Spark. Darüber hinaus hilft Ihnen PySpark, in Apache Spark und der Programmiersprache Python mit Resilient Distributed Datasets (RDDs) zu arbeiten. Dies wird durch die Nutzung der Py4J-Bibliothek erreicht.

PySpark-Logo

Py4J ist eine beliebte Bibliothek, die in PySpark integriert ist und mit deren Hilfe Python dynamisch mit JVM-Objekten kommunizieren kann. PySpark bietet eine ganze Reihe von Bibliotheken zum Schreiben effizienter Programme. Darüber hinaus gibt es verschiedene externe Bibliotheken, die ebenfalls kompatibel sind. Nachfolgend sind einige davon aufgeführt:

PySparkSQL

Eine PySpark-Bibliothek zur Anwendung SQL-ähnlicher Analysen für große Mengen strukturierter oder teilstrukturierter Daten. Wir können mit PySparkSQL auch SQL-Abfragen verwenden. Ferner kann es mit Apache Hive verbunden werden. HiveQL kann ebenfalls angewendet werden. PySparkSQL ist ein Wrapper für den PySpark-Kern. Mit PySparkSQL wurde der DataFrame eingeführt, eine tabellarische Darstellung strukturierter Daten, die der einer Tabelle eines relationalen Datenbankmanagementsystems (RDBMS) ähnelt.

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

mllib

MLlib ist ein Wrapper für PySpark und die Spark-Bibliothek für maschinelles Lernen. Diese Bibliothek verwendet das Datenparallelitätsverfahren zum Speichern von und Arbeiten mit Daten. Die von der MLlib-Bibliothek bereitgestellte ML-API ist recht einfach zu verwenden. MLlib unterstützt viele ML-Algorithmen für Klassifizierung, Regression, Clustererstellung, kollaborative Filterung, Dimensionalitätsreduzierung und zugrunde liegende Optimierungsprimitive.

GraphFrames

GraphFrames ist eine spezielle Graph-Verarbeitungsbibliothek, die eine Reihe von APIs für die effiziente Durchführung von Graphanalysen unter Verwendung des PySpark-Kerns und PySparkSQL bereitstellt. Sie ist für eine schnelle verteilte Datenverarbeitung optimiert. Vorteile der Verwendung von PySpark: • Python ist sehr einfach zu erlernen und zu implementieren. • Es bietet eine einfache, aber sehr komplette API. • Mit Python werden die Lesbarkeit von Code, die Wartung und die Vertrautheit deutlich verbessert. • Es bietet verschiedene Optionen zur Datenvisualisierung, die mit Scala oder Java schwierig ist.  

Zusätzliche Ressourcen

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.