Veröffentlicht: 11. November 2024
von Josh Howard und Amit Kara
Daten sind eines der wertvollsten Güter eines Unternehmens, aber ihr Wert hängt davon ab, wie gut ein Unternehmen diese Daten nutzen kann, um Geschäftsentscheidungen zu treffen, die Wirkung und Umsatz generieren. Datensilos hindern Unternehmen daran, einen vollständigen Überblick über ihre Daten zu erhalten, und diese Lücken können die Fähigkeit einer Führungskraft beeinträchtigen, datengesteuerte Entscheidungen zu treffen.
Der Name „Silo“ mag Bilder von Silos auf einem Bauernhof hervorrufen, wo verschiedene Körner in separaten Behältern gelagert werden. Datensilos beziehen sich auf diese gleiche Trennung von Daten innerhalb von Unternehmen. Verschiedene Teams sammeln, verwalten und speichern ihre Daten oft getrennt voneinander, wobei der Zugriff auf bestimmte Gruppen beschränkt ist. Manchmal ist die Trennung um Produkteinheiten oder Jobfunktionen herum konzipiert, manchmal entstehen Datensilos jedoch durch Akquisitionen.
In vielen Organisationen sind Daten nach Typ getrennt. In diesem Fall werden strukturierte Daten in mehreren Data Warehouses gespeichert, sowohl On-Premises als auch in der Cloud. Währenddessen werden unstrukturierte und Streaming-Daten separat in einem Data Lake gespeichert. Diese Trennung erschwert die Datenverwaltung und begrenzt den Wert, den Organisationen aus ihren Daten gewinnen können.
Datensilos sind ein Problem, da sie die Sichtbarkeit und den Zugriff auf Daten behindern, die Ineffizienz und die Kosten erhöhen, eine effektive Governance erschweren und dazu führen, dass Organisationen wichtige Erkenntnisse auf dem Tisch liegen lassen.
Wenn die Daten eines Unternehmens über mehrere unabhängige Systeme verteilt sind, die von separaten Gruppen gesteuert werden, ist der Zugriff auf alle Daten schwierig, wenn nicht unmöglich. Die Analyse aggregierter Daten ist ebenfalls schwierig. Teams haben oft mit doppelten Daten zu kämpfen, die schwer abzugleichen sind, oder mit fehlenden Daten, die Lücken hinterlassen. Und die Speicherung von strukturierten und unstrukturierten Daten an verschiedenen Orten erschwert die Implementierung fortschrittlicher Machine-Learning-Funktionen und GenAI-Initiativen. Organisationen benötigen außerdem mehrere Governance-Modelle, um mit silo-Daten umzugehen, was Sicherheits- und Compliance-Risiken erhöht.
Die Beseitigung von Datensilos hilft Führungskräften, einen vollständigen Überblick über ihr Unternehmen zu erhalten, Duplizierung und Ineffizienz zu reduzieren, die Governance zu optimieren und die KI-Funktionen voll auszuschöpfen, um datengesteuerte Entscheidungen zu treffen.
Der Übergang von einer traditionellen Architektur mit Datensilos zu einem modernen Data Lakehouse verschafft Unternehmen Transparenz über ihre Daten und kann auch die Kosten senken. Wenn Daten über mehrere Teams hinweg silo-artig gespeichert sind, muss jedes Team die Kosten für Infrastruktur und IT-Personal tragen, um seine spezifischen Datenanforderungen zu erfüllen. Die Zentralisierung von Daten ermöglicht es Unternehmen, ihren Technologie-Stack zu konsolidieren und die Kosten für Verwaltung und Wartung zu senken.
Moderne Datenarchitekturen wie das Data Lakehouse bieten verbesserte Flexibilität und Skalierbarkeit, um Unternehmen bei der Kontrolle der Compute-Kosten zu helfen. Die Durchführung von Datenaufbereitung und Ad-hoc-Analysen in einer Cloud-Lösung wie Databricks, die sich dynamisch basierend auf den benötigten Compute-Clustern hoch- und runterskaliert, stellt sicher, dass Unternehmen nicht für ungenutzte Compute-Ressourcen bezahlen. Beispielsweise half die Umstellung auf Delta Lake und Databricks Relogix, seine Infrastrukturkosten um 80 % zu senken.
Datensilos ähneln oft den Organigrammen von Unternehmen, wobei Datensilos häufig entstehen, wenn Daten von verschiedenen Geschäftsbereichen oder Produktgruppen getrennt werden. Diese Trennung kann durch widersprüchliche Ansätze zur Datenverwaltung oder den Wunsch, bestimmte Daten vertraulich zu behandeln, verstärkt werden. Datenvertraulichkeit wird jedoch besser durch ordnungsgemäße Zugriffskontrollen erreicht. Daten können auch nach Jobtyp silo-artig gespeichert werden, da Disziplinen wie Ingenieurwesen, Marketing und Finanzen unterschiedliche Datenanforderungen und Prioritäten haben.
Einige Teams sprechen einfach nicht genug miteinander, um zu erkennen, dass sie Anstrengungen doppelt machen. Mangelnde Kommunikation kann auch dazu führen, dass Teams sich der Bedürfnisse anderer Teams nicht bewusst sind und nicht erkennen, dass sie Daten haben, von denen ein anderes Team profitieren könnte. Da Teams unabhängig voneinander eigene Ansätze zur Verwaltung und Sammlung von Daten entwickeln, wachsen die Silos nur und durch die unabhängige Speicherung von Daten entwickeln sie unbeabsichtigt Systeme, die nicht kompatibel sind und den Datenaustausch erschweren.
Datensilos spiegeln nicht nur organisatorische Silos wider, sondern alle diese Daten werden oft nach Typ silo-artig gespeichert. Während strukturierte Daten in mehreren On-Premise- und Cloud-Data-Warehouses gespeichert werden, werden unstrukturierte Daten, die für KI verwendet werden, in Data Lakes gespeichert. Jedes dieser Architekturmuster erfordert ein eigenes Governance-Modell, was die Fähigkeit einer Organisation einschränkt, sicher auf ihre Daten zuzugreifen und sie für KI-Erkenntnisse zu nutzen, die Wettbewerbsvorteile erzielen.
Datensilos werden oft organisch durch Anwendungsfälle identifiziert, die im Tagesgeschäft auftreten. Teams stellen fest, dass sie keinen Zugriff auf bestimmte Daten haben oder diese nicht finden können. Mitarbeiter beschweren sich möglicherweise darüber, wie viel Zeit und manueller Aufwand für die Zusammenstellung von Berichten erforderlich ist. Führungskräfte erhalten möglicherweise ähnliche Berichte von verschiedenen Teams, die Abweichungen, Duplikate oder Lücken aufweisen. Teams beginnen möglicherweise, Daten außerhalb der typischen Datenwerkzeuge zu speichern und zu verfolgen, um mehr Kontrolle oder schnelleren Zugriff auf ihre Daten zu haben, was zu doppelten und Offline-Kopien von Daten führt.
Unternehmen können Datensilos proaktiv identifizieren, indem sie Daten-Audits durchführen. Das sorgfältige Nachverfolgen und Dokumentieren verschiedener Datenquellen im gesamten Unternehmen gibt Führungskräften ein klares Verständnis ihrer Datenverwaltungs- und Speichersituation. Sie können dies als Ausgangspunkt für die Planung eines Übergangs zu einem zentralisierten Datenmodell verwenden. Sobald Silos beseitigt sind und eine zentralisierte Architektur vorhanden ist, können regelmäßig kleinere Daten-Audits durchgeführt werden, um neue Silos zu erkennen und sie schnell in das zentrale Datenrepository zurückzuführen.
Sobald Datensilos identifiziert sind, kann ein Unternehmen Schritte unternehmen, um sie aufzubrechen und zu einer zentralisierten gemeinsamen Speicherlösung überzugehen.
Cloud-Speicherlösungen bieten eine skalierbare Möglichkeit, zentrale Daten an einem einzigen Ort zu speichern, aber traditionelle Cloud-Lösungen wie Amazon und Azure werden oft zu einem Speicher-Dump – einem gemeinsamen Ort, an dem Daten ohne organisierende Struktur oder gemeinsames Verständnis, wie der gemeinsame Speicher genutzt werden soll, abgelegt werden.
Cloud Data Warehouses bringen durch Schema-Definitionen eine zusätzliche Ordnung und Verständnis. Mit definierten Schemata können Daten klassifiziert und organisiert werden, um größere analytische Erkenntnisse zu ermöglichen. Das Definieren und Pflegen dieser Schemata kann jedoch zeitaufwendig sein und es kann schwierig sein, alle von Ihrem Unternehmen benötigten Datentypen in einem einzigen Schema zu unterstützen.
Data Lakes sind flexibler als Data Warehouses, da sie kein Datenschema benötigen und alle Datentypen unterstützen können, einschließlich unstrukturierter und semi-strukturierter Daten wie Bilder, Videos, Audio und Dokumente. Diese Flexibilität erleichtert es Teams, zu einem einzigen, zentralen Speicherort zu wechseln, ohne ihre Datenverwaltungspraktiken wesentlich ändern zu müssen. Data Lakes ermöglichen auch Analysen zu verschiedenen Formaten und ermöglichen es Benutzern, Bedenken hinsichtlich der Kosten und des Vendor-Lock-ins von Data Warehouses zu adressieren.
Data Lakes bedeuteten, dass einige Unternehmen von teurer, proprietärer Data-Warehouse-Software zu Data Lakes wechseln konnten. Data Lakes ermöglichten es Unternehmen auch, riesige Mengen unstrukturierter Daten auf eine Weise zu analysieren, die mit Data Warehouses nicht möglich war, und ermöglichten auch Machine Learning.
Data Lakes unterstützen jedoch keine Transaktionen und verfügen nicht über die Sicherheitsfunktionen, die viele Unternehmen benötigen. Sie können auch Leistungsprobleme aufweisen, wenn die Datenmenge wächst. Während Data Warehouses in diesen Funktionsbereichen zuverlässiger sind, unterstützen sie nur strukturierte Daten und sind nicht in offenen Formaten wie Data Lakes und Data Lakehouses verfügbar.
Ein Data Lakehouse kombiniert die Skalierbarkeit und Flexibilität von Data Lakes mit der Transaktionsunterstützung und Governance von Data Warehouses und ermöglicht fortschrittliche KI- und Analyseszenarien, die Datensilos wirklich aufbrechen. Ein Data Lakehouse ermöglicht es Benutzern, alles von BI, SQL-Analysen, Data Science und KI auf einer einzigen Plattform durchzuführen. Das Lakehouse verfolgt einen meinungsbildenden Ansatz beim Aufbau von Data Lakes, indem es Data-Warehouse-Attribute hinzufügt – Zuverlässigkeit, Leistung und Qualität –, während die Offenheit und Skalierbarkeit von Data Lakes erhalten bleiben.
Lakehouses basieren auf Open-Source-Tabellenformaten wie Delta Lake oder Apache Iceberg. Dies ermöglicht es Teams, strukturierte, semi-strukturierte und unstrukturierte Daten in einem Data Lake zu speichern, wobei ein portables Format verwendet wird, das Vendor-Lock-in verhindert. Diese Formate bieten ACID-konforme Transaktionen, Schemaerzwingung und Datenvalidierung.
Eine der größten Herausforderungen für Organisationen bei der Einführung des Open Data Lakehouse ist die Auswahl des optimalen Formats für ihre Daten. Jedes offene Format ist besser, als Ihre Daten in ein proprietäres Format zu bringen. Die Wahl eines einzigen Speicherformats zur Standardisierung kann jedoch eine entmutigende Aufgabe sein, die zu Entscheidungsermüdung und Angst vor irreversiblen Folgen führen kann.
Delta UniForm (kurz für Delta Lake Universal Format) bietet eine einfache, leicht zu implementierende, nahtlose Vereinheitlichung von Tabellenformaten, ohne zusätzliche Datenkopien oder Silos zu erstellen. Mit UniForm können Delta Lake-Tabellen als Iceberg-Tabellen gelesen werden, sodass Sie jede Compute-Engine verwenden können, die mit den Delta Lake- oder Iceberg-Ökosystemen funktioniert.
Eine weitere Herausforderung, die Datensilos mit sich bringen, ist die eingeschränkte Zusammenarbeit, sowohl intern als auch extern, was den Informations- und Innovationsfluss einschränkt. Durch den Abbau dieser Silos und die Schaffung einer einheitlichen Quelle der Wahrheit über Data Lakes, Datenbanken, Warehouses und Kataloge hinweg können Unternehmen einen nahtlosen Zugriff auf Daten und KI-Assets von jeder Compute-Engine oder jedem Tool über Open APIs ermöglichen. Hier kommt Databricks Unity Catalog als branchenweit einzige einheitliche und offene Governance-Lösung für Daten und KI ins Spiel.
Mit Unity Catalog können Unternehmen Daten- und KI-Assets, einschließlich strukturierter und unstrukturierter Daten, KI-Modelle und Dateien, über jede Cloud oder Plattform hinweg nahtlos verwalten. Es ermöglicht die sichere Entdeckung, den Zugriff und die Zusammenarbeit für Data Scientists, Analysten und Ingenieure und steigert die Produktivität durch KI. Durch die Förderung der Interoperabilität und die Beschleunigung von Dateninitiativen vereinfacht Unity Catalog die Compliance und fördert die Zusammenarbeit im großen Maßstab, während gleichzeitig ein Vendor Lock-in vermieden wird.
Extract, Transform and Load (ETL)-Prozesse helfen Teams, Daten zu standardisieren und zu teilen. ETL-Tools können genutzt werden, um Daten aus bestehenden Silos in einen zentralen Speicherort wie einen Data Lakehouse zu verschieben. Ingenieure können ETL-Pipelines erstellen, um die laufende Echtzeit-Ingestion zu verwalten und die Qualitätskontrolle über Daten zu gewährleisten, die in den gemeinsam genutzten zentralen Speicher gelangen.
Der Abbau von Datensilos und die Verhinderung ihres erneuten Auftretens erfordern auch einen Kulturwandel und eine sorgfältige Planung, wie Systeme und Prozesse zur Nutzung zentralisierter Datenspeicher migriert werden können. Das Verständnis, welche Lücken oder technischen Herausforderungen Teams von der Einführung einer neuen Datenspeicherlösung abhalten, ist entscheidend, um alle mit ins Boot zu holen, und wird die Entscheidungen zum Change Management beeinflussen. Idealerweise sind neue Prozesse auch skalierbar und flexibel und können sich an sich entwickelnde Unternehmensanforderungen und Datenbedürfnisse anpassen.
Die Einführung zusätzlicher Governance- und Datenmanagementrichtlinien hilft, die Entstehung neuer Datensilos in Zukunft zu verhindern. Eine klare Dokumentation von Richtlinien, Standards und Verfahren ist unerlässlich, damit Teams ihre Daten in einem gemeinsam genutzten zentralen Speicher verwalten und weiterführen können. Regelmäßige Daten-Audits können schnell Lücken in Prozessen oder Bereiche des Unternehmens identifizieren, die den Kulturwandel noch nicht vollzogen haben.
Die Unterstützung durch die Geschäftsleitung und die Zustimmung des Managements sind entscheidend für die Erzielung eines Kulturwandels. Die Formulierung klarer Vorteile – sowohl kurz- als auch langfristig – wird helfen, Unterstützung für breitere Veränderungen zu gewinnen. Skizzieren Sie aktuelle Datentasks, die einfacher oder kostengünstiger werden, und heben Sie hervor, welche neuen Möglichkeiten moderne Architekturen ermöglichen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
