Was ist ein Datensatz?

Strukturierte Sammlung zusammengehöriger Daten, organisiert für Analyse, maschinelles Lernen oder Berichterstellung, von Datenbanktabellen und CSV-Dateien bis hin zu komplexen Mehrdateiformaten mit Schemata.

von Databricks-Mitarbeiter

Zu den Merkmalen gehören ein definiertes Schema zur Spezifizierung von Datentypen und -struktur, Metadaten zur Beschreibung von Herkunft, Datenfluss und Qualitätsmetriken, Versionsverwaltung zur Nachverfolgung von Änderungen im Zeitverlauf sowie Zugriffskontrollen zur Verwaltung von Berechtigungen für verschiedene Benutzergruppen.
Die Datentypen umfassen strukturierte Datensätze (relationale Tabellen, Parquet-Dateien), semistrukturierte Daten (JSON, XML), unstrukturierte Sammlungen (Bilder, Textdokumente), Zeitreihendaten und Geodaten mit speziellen Formaten.
Die Verwaltung umfasst die Katalogisierung zur Auffindbarkeit, die Qualitätsprofilierung zur Erkennung von Anomalien, die Nachverfolgung des Datenflusses, die Partitionierung zur Leistungsoptimierung und die Dokumentation, die den Geschäftskontext und die Nutzungsrichtlinien erläutert.

Was ist ein Dataset?

Ein Dataset ist eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gemeinsam gespeichert werden. Die Daten in einem Dataset sind in der Regel in irgendeiner Weise aufeinander bezogen und stammen aus einer einzigen Quelle oder sind für ein einzelnes bestimmtes Projekt vorgesehen. Beispielsweise kann ein Dataset eine Auswahl von Geschäftsdaten enthalten (Verkaufszahlen, Kundenkontaktinformationen, Transaktionen usw.). Es kann dabei viele verschiedene Datentypen enthalten – von numerischen Werten über Texte und Bilder bis hin zu Audioaufnahmen. Auf die Daten in einem Dataset kann in der Regel einzeln oder in Kombination zugegriffen werden, sie können aber auch als Einheit verwaltet werden.

Datasets sind ein grundlegendes Tool für Data Analytics, Datenanalyse und maschinelles Lernen (ML). Sie stellen die Daten bereit, aus denen Analysts Erkenntnisse und Trends ableiten. Für ML sind sie unverzichtbar, denn die Auswahl des geeigneten Datasets für ein ML-Projekt ist einer der wichtigsten ersten Schritte für das erfolgreiche Trainieren und Implementieren eines ML-Modells.

Heißt es Dataset, Datenbestand, Datensatz …?

Eine Sammlung von Daten wird allgemein als Dataset, Datensatz oder Datenbestand bezeichnet, wobei es durchaus gewisse Unterschiede gibt. Bei Databricks verwenden wir Dataset im Kontext von Data Analytics.

Dataset und Datenbanken im Vergleich

Auch die Begriffe Dataset und Datenbank werden oft verwechselt. Zwar sind beide Konzepte miteinander verwandt und werden zur Beschreibung der Organisation und Verwaltung von Daten verwendet, doch unterscheiden sie sich in einigen wesentlichen Punkten:

Wie im ersten Abschnitt definiert, ist ein Dataset eine Sammlung von Daten, die zur Analyse und Modellerstellung verwendet werden und üblicherweise in einem strukturierten Format organisiert sind. Dieses strukturierte Format kann beispielsweise eine Excel-Tabelle, eine CSV-Datei, eine JSON-Datei, aber auch ein anderes Format sein. Die Daten in einem Dataset können auf verschiedene Weise organisiert sein und einer Vielzahl von Quellen entstammen, z. B. Kundenumfragen, Experimenten oder einer bestehenden Datenbank. Datasets können für viele Zwecke verwendet werden, z. B. zum Trainieren und Testen von Machine-Learning-Modellen, zur Datenvisualisierung, für Forschungszwecke oder statistische Analysen. Auch können Datasets öffentlich oder privat geteilt werden. Ein Dataset ist im Vergleich zu einer Datenbank in der Regel kleiner.

Eine Datenbank ist für die langfristige elektronische Speicherung und Verwaltung großer Mengen organisierter Daten konzipiert, sodass diese Daten leicht abgerufen, bearbeitet und aktualisiert werden können. Mit anderen Worten: Eine Datenbank ist eine organisierte Sammlung von Daten, die in mehreren Datasets gespeichert sind. Es gibt viele verschiedene Arten von Datenbanken, unter anderem relationale Datenbanken, Dokumentdatenbanken und Schlüssel-Wert-Datenbanken.

Was sind Beispiele für Datasets?

Ein Dataset kann Zahlen, Texte, Bilder, Audioaufnahmen oder sogar einfache Objektbeschreibungen enthalten. Es kann in verschiedenen Formen organisiert sein, z. B. als Tabellen oder Dateien. Beispiele für Datasets:

Ein Dataset, das eine Auflistung aller Immobilienverkäufe in einer bestimmten Region während eines bestimmten Zeitraums enthält
Ein Dataset, das Informationen über alle bekannten Meteoritenlandungen enthält
Ein Dataset zur regionalen Luftqualität in einem bestimmten Gebiet während eines bestimmten Zeitraums
Ein Dataset, das die Anwesenheitsquote von Schülern an Grund- und weiterführenden Schulen nach Schülergruppen und Bezirken für das Schuljahr 2021/22 enthält

Öffentliche Datasets

Öffentliche Datasets sind öffentliche Daten zu einem bestimmten Thema, die für die Öffentlichkeit zugänglich sind. Sie sind besonders wertvoll für Data Scientists, da sie in der Regel kostenlos sowie leicht zugänglich und herunterladbar sind. Solche Daten können zum Trainieren von ML-Modellen verwendet werden.

Zum Beispiel stellt die National Oceanic and Atmospheric Administration (NOAA) Daten zu allem von der Wasserqualität bis zum Klimawandel zur Verfügung. Automatische Abhängigkeitsüberwachung (ADS-B) Daten zeigen die Bewegungen von kommerziellen Flugzeugen in Echtzeit, und die U.S. General Services Administration bietet Data.gov an, das mehr als 200.000 Datensätze und Hunderte von Kategorien umfasst.

Auch Databricks bietet eine Reihe von Beispiel-Datasets, die von Dritten bereitgestellt werden und im Databricks Workspace verwendet werden können. Die Verwendung dieser Datasets in Kombination mit KI und maschinellem Lernen auf Databricks ermöglicht ML-Teams die Aufbereitung und Verarbeitung von Daten. Dadurch wird die teamübergreifende Zusammenarbeit rationalisiert und der gesamte ML-Lebenszyklus vom Experiment bis zur Produktion standardisiert – auch für generative KI und Large Language Models.

Verwenden von Datasets

Es gibt verschiedene Möglichkeiten, Datasets zu nutzen. Analysten verwenden sie, um Daten für Business-Intelligence-Zwecke zu untersuchen und zu visualisieren. Data Scientists trainieren mit Datasets ML-Modelle. Doch bevor Datasets genutzt werden können, müssen die Daten mithilfe von Data-Engineering-Prozessen wie ETL (Extract, Transform, Load) in einen Data Lake oder ein Lakehouse überführt werden. Mit ETL können Engineers Daten aus verschiedenen Quellen extrahieren, sie in eine verarbeitungsfähige und belastbare Ressource umwandeln und sie in die Systeme laden, auf die dann die Endbenutzer zugreifen, um Geschäftsprobleme zu lösen.

Verwalten, Katalogisieren und Absichern von Datasets

Damit Datasets verwendet werden können, müssen sie katalogisiert, verwaltet und mit einem Governance-System sicher gespeichert werden. Die Implementierung einer wirksamen Data-Governance-Strategie ermöglicht es Unternehmen, Daten für eine datengesteuerte Entscheidungsfindung bereitzustellen, sie gleichzeitig vor unbefugtem Zugriff zu schützen und die Einhaltung gesetzlicher Vorschriften zu gewährleisten.

Um den Herausforderungen der Data Governance zu begegnen, hat Databricks Unity Catalog entwickelt. Unity Catalog ist eine integrierte Governance-Lösung für Daten und KI-Assets im Lakehouse. Damit können Unternehmen nahtlos strukturierte und unstrukturierte Daten, Machine-Learning-Modelle, Notebooks, Dashboards und Dateien in jeder Cloud und auf jeder Plattform verwalten. Data Scientists, Analysts und Engineers können mit Unity Catalog auf sichere Weise vertrauenswürdige Daten und KI-Assets entkunden, darauf zugreifen und sie gemeinsam bearbeiten.

Teilen von Datasets

Die meisten Data Scientists möchten Datasets nicht nur erfassen und analysieren, sondern sie auch mit anderen teilen. Dieses sogenannte Data Sharing fördert die Vernetzung und Zusammenarbeit und damit potenziell wichtige neue Erkenntnisse. Delta Sharing ist ein in Unity Catalog integriertes Open-Source-Tool, mit dem Data Scientists und Analysts auf einfache Weise Daten und KI-Assets cloud-, regions- und plattformübergreifend austauschen können, um neue Umsatzströme zu generieren und den Geschäftswert zu steigern, ohne auf proprietäre Formate, komplexe ETL-Prozesse oder eine kostspielige Datenreplikation angewiesen zu sein.

Zusätzliche Ressourcen

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen