Angetrieben von Open-Source-OpenSharing bringt unser neues Storage-Partner-Ökosystem die Databricks Data Intelligence Platform direkt in Ihre On-Premises- und Hybrid-Infrastruktur – ohne ein einziges Byte zu kopieren.
von Rupal Jain und Denis Dubeau
Jahrelang war die Datenstrategie von Unternehmen einfach: Alles in die Cloud verschieben. Die Data Lakes und Warehouses in die Cloud migrieren, und die Governance folgt von selbst. Es war eine saubere Geschichte – bis sie es nicht mehr war.
Heute sagen uns einige der anspruchsvollsten Unternehmen der Welt ganz klar: Sie können – und wollen – nicht alle ihre Daten in die Cloud verschieben. Führende Halbleiterhersteller trainieren Modelle auf als vertraulich eingestuften Entwicklungsdaten, die niemals ihre Standorte verlassen dürfen. Globale Handelsunternehmen sitzen auf riesigen Mengen historischer Tick-Daten, bei denen die wirtschaftlichen Aspekte des Cloud-Egress eine Migration unmöglich machen. Tier-1-Banken haben „Hybrid Forever“-Strategien eingeführt, bei denen sie ihre On-Premises-Speicher modernisieren und gleichzeitig eine strenge Datensouveränität wahren. Große Pharmaunternehmen führen täglich Millionen von Medikamentenexperimenten auf On-Premises-Datenbeständen im Petabyte-Bereich durch, die strengen regulatorischen Kontrollen unterliegen.
Dies sind keine Einzelfälle. Sie stehen für einen strukturellen Wandel im Denken von Unternehmen über Daten: weg von "Migrate Everything" zu "Govern Everything."
Die Treiber dahinter sind real und verstärken sich gegenseitig:
Das Signal ist unmissverständlich. Wir haben Anfragen von Hunderten von Kunden erhalten, die explizit nach On-Premises- und hybrider Speicheranbindung an Unity Catalog verlangen. Der Markt für Software-Defined Storage (SDS) wird im Jahr 2026 ein Volumen von Hunderten Milliarden Dollar erreichen, und die Unternehmenspartner, die diese Bestände verwalten – und zusammen mehr als 2 Zettabyte an verwalteten Daten halten –, entwickeln gemeinsam mit uns Lösungen.
Heute freuen wir uns, das Databricks Software-Defined Storage (SDS) Ecosystem vorzustellen – eine neue Partnerkategorie, die speziell dafür entwickelt wurde, die Databricks Intelligence Platform direkt zu den Unternehmensdaten zu bringen, wo auch immer sie sich befinden: On-Premises, in Private Clouds und in Edge-Umgebungen. Wenn Sie als Unternehmen heute Petabytes an Daten auf diesen Plattformen betreiben, müssen Sie sich nicht mehr zwischen Ihrer bestehenden Non-Cloud-Speicherinfrastruktur und Databricks AI entscheiden.
Viel zu lange mussten sich Unternehmen zwischen der On-Premises-Speicherinfrastruktur, auf die sie angewiesen sind, und der Cloud-nativen KI, die sie entwickeln wollen, entscheiden. Kunden zu zwingen, riesige Datenmengen über komplexe Pipelines zu migrieren, nur um diese Intelligenz zu nutzen, ist ein fehlerhaftes Modell. Durch den Zusammenschluss dieser branchenführenden Partner beenden wir diesen Kompromiss und bringen Databricks Intelligence direkt dorthin, wo die Unternehmensdaten liegen. Aber dieser Launch ist erst der Anfang. Wir schaffen das Fundament, um sicherzustellen, dass bald alle hybriden Daten – ob strukturiert oder unstrukturiert – sofort für generative KI bereitstehen, ohne dass auch nur ein einziges Byte kopiert werden muss. — Stephen Orban, SVP, Product Partnerships & Ecosystem, Databricks
Das Herzstück dieses Ökosystems ist OpenSharing, ein Open-Source-Protokoll für den sicheren und kontrollierten Datenaustausch. Unsere Speicherpartner implementieren OpenSharing-Server, um ihre Datenbestände direkt für Databricks Serverless Compute bereitzustellen. Der Weg dorthin ist einfach: Der Speicherpartner stellt einen OpenSharing-Endpunkt bereit, Sie verbinden ihn mit Unity Catalog und erhalten sofort sicheren, kontrollierten Zugriff auf Ihre On-Premises-Daten in Databricks – ganz ohne Datenmigration.
Diese Integration bietet einen einzigen, einheitlichen Katalog für Ihre gesamte hybride Umgebung. Kunden können jetzt Databricks Serverless Compute, Genie, AgentBricks und das Modelltraining nutzen, um Daten abzufragen und zu analysieren, die die eigenen Räumlichkeiten nie verlassen. Das Ergebnis? Keinerlei Datenverschiebung, keine Datenduplizierung und null Compliance-Risiko.
Dies ist keine bloße Zukunftsvision. Kunden können diese Integrationen schon heute testen. Partner, die diese Integrationen entwickeln, folgen dem Partner Well-Architected Framework – einem technischen Leitfaden, der Architektur-, Sicherheits- und Zertifizierungskriterien abdeckt.
Kunden möchten Datensilos aufbrechen und ihre gesamten Daten- und KI-Bestände zusammenführen – einschließlich großer Datenmengen, die sich nach wie vor On-Premises befinden. Dank der On-Premises-Speicherpartner, die das Open-Source-Protokoll Open Sharing nutzen, können Kunden nun ihren gesamten Datenbestand nahtlos in Databricks Unity Catalog zusammenführen, verwalten und analysieren. So schöpfen sie den vollen Wert ihrer Daten in der Databricks Data Intelligence Platform aus. — Jonathan Keller, VP, Product Management, Databricks

Wir sind stolz darauf, Integrationen mit den folgenden führenden Speicheranbietern anzukündigen:

MinIO AIStor ist das Bindeglied, das die Databricks Data Intelligence Platform nahtlos mit Unternehmensdaten verbindet, die nicht in die Cloud verschoben werden können. Durch die native Implementierung des offenen Open-Sharing-Protokolls auf der Speicherebene eliminiert AIStor Komplexität und ermöglicht es Databricks-Kunden, Live-On-Premises-Tabellen von Apache Iceberg™️ und Delta unter der vollständigen Governance von Unity Catalog effizient abzufragen. Es erweitert Serverless Compute, Genie und Agent Bricks auf On-Premises-Daten und bringt so die volle Leistung der Databricks-Plattform auf die kritischsten Daten eines Unternehmens.
KI- und Analyseinitiativen sind oft dadurch eingeschränkt, wo sich die Daten befinden – insbesondere in Umgebungen mit strengen Sicherheits-, Souveränitäts- oder Betriebsanforderungen. Indem wir natives OpenSharing in AIStor integrieren, ermöglichen wir es Unternehmen, Daten dort sicher bereitzustellen, wo sie liegen, während Databricks über offene Standards nahtlos darauf zugreifen kann. Dies beseitigt eine große Barriere zwischen Unternehmensdaten und KI und erlaubt es Organisationen, bisher unzugängliche Daten für KI, Analysen und agentische Anwendungen zu aktivieren, ohne die Kontrolle zu verlieren. — Ugur Tigli, Chief Technology Officer, MinIO
Everpure und Databricks ermöglichen es Unternehmen, On-Premises-Daten direkt in der Cloud zu nutzen, wodurch eine Datenreplikation oder -duplizierung überflüssig wird. Dies wird über einen OpenSharing-Connector realisiert, der Daten im Objektspeicher auf sichere und kontrollierte Weise mit den Databricks-Core-Workspaces verbindet.
Everpure und Databricks ermöglichen es Unternehmen, direkt aus der Cloud auf On-Premises-Daten zuzugreifen und diese zu analysieren, ohne dass eine Replikation oder Duplizierung erforderlich ist. Daten kontinuierlich zwischen Umgebungen zu verschieben, ist kostspielig und auf Dauer nicht tragbar. Kunden suchen nach einem einfacheren Ansatz, der Kosten, Compliance und Datensouveränität in Einklang bringt und gleichzeitig die betriebliche Komplexität reduziert. — Chadd Kenney, VP of Product Management, Everpure
Qumulo hat OpenSharing in sein neues NeuralSearch integriert. So können Kunden auf Qumulo gespeicherte Daten sicher und ohne Replikation, zusätzliche Kosten oder Komplexität in Core-, Cloud- und Edge-Umgebungen mit Databricks teilen. Mit NeuralSearch können Benutzer relevante Datensätze, einschließlich unstrukturierter Inhalte, über Abfragen in natürlicher Sprache finden und diese kuratierten Tabellen nahtlos über OpenSharing mit Databricks teilen.
Unternehmen können sich die Kosten, die Komplexität und die Verzögerungen beim Kopieren riesiger Datensätze über verschiedene Umgebungen hinweg nicht mehr leisten, nur um AI und Analysen zu unterstützen. Durch die Kombination von Qumulo NeuralSearch mit Databricks OpenSharing können Kunden sowohl tabellarische als auch unstrukturierte Daten in Core-Rechenzentren, Edge-Standorten und Public Clouds sicher finden, verwalten und teilen – in Echtzeit und ohne die Daten selbst zu verschieben. Gemeinsam helfen wir Unternehmen, AI-Initiativen zu beschleunigen, die Governance zu vereinheitlichen und schnellere Erkenntnisse aus global verteilten Daten zu gewinnen, während gleichzeitig eine Single Source of Truth erhalten bleibt. — Brandon Whitelaw, SVP und Head of Product bei Qumulo
VAST Data erweitert das VAST AI Operating System um OpenSharing-Unterstützung. Dies hilft Unternehmen, Databricks-Workflows mit Daten zu verknüpfen, die sich in On-Premises- und Hybrid-Infrastrukturen befinden – ohne dass massive Datenverschiebungen oder Migrationen erforderlich sind. Die Integration bietet Kunden mehr Flexibilität beim Zugriff, der Verarbeitung und der Operationalisierung von Daten in Cloud-, Rechenzentrums- und neuen AI-Infrastrukturumgebungen, während gleichzeitig moderne hybride AI- und Analyse-Workloads unterstützt werden.
AI-Infrastruktur wird von Grund auf hybrid. Kunden möchten zunehmend die Möglichkeit haben, Daten dort zu verarbeiten, wo es wirtschaftlich und operativ am sinnvollsten ist, und gleichzeitig einen nahtlosen Zugriff über verschiedene Umgebungen hinweg beizubehalten. Die OpenSharing-Unterstützung erweitert die Fähigkeit des VAST AI Operating System, Databricks-Workflows mit Daten zu verknüpfen, die in Cloud- und On-Premises-Infrastrukturen für moderne AI- und Analyseanwendungen liegen. Im Gegensatz zu herkömmlichen Speicherplattformen kombiniert VAST Datendienste, verteilte Verarbeitung und die Orchestrierung von AI-Infrastrukturen in einem einheitlichen Betriebssystem für AI-Daten im großen Stil. — John Mao, Vice President, Global Technology Alliances bei VAST Data
Zusätzlich zu unseren Launch-Partnern nimmt die Dynamik im gesamten Storage-Ökosystem weiter zu. Wir haben Zusagen von Cohesity, Commvault, HPE, NetApp, Nutanix und Rubrik erhalten, bis Ende des Jahres native Integrationen zu entwickeln.
Zusammen verwalten diese Partner, gemeinsam mit den Launch-Partnern, Hunderte von Exabyte an Unternehmensdaten. Dies umfasst hochperformante unstrukturierte Medien, sekundäre Backup-Archive, kostengünstigen Cloud-Speicher und hyperkonvergente Private-Cloud-Umgebungen.
Der heutige Launch etabliert strukturierte, tabellarische Daten als vollständig verwaltet und zugänglich in diesem Ökosystem. Wir wissen jedoch, dass die eigentlichen Chancen in unstrukturierten Daten liegen: Bilder, PDFs, Videos, medizinische Scans, technische Simulationen und Backup-Archive, die den Großteil der verwalteten Unternehmensdaten ausmachen – und das Rohmaterial für die nächste Generation von RAG-Pipelines und feinabgestimmten Modellen darstellen.
Wir arbeiten aktiv daran, das OpenSharing-Protokoll um Volumes-APIs zu erweitern, um unstrukturierte Dateien aus dem On-Premises-Speicher direkt für GenAI-Workloads in Databricks bereitzustellen. Damit werden Partner, die riesige Mengen unstrukturierter Daten verwalten – von Medien- und Bildarchiven bis hin zu Backup-Repositories von Unternehmen –, eine völlig neue Klasse von AI-Anwendungsfällen für ihre Kunden erschließen.
Das bedeutet es, alles zu verwalten.
Wenn Sie ein Speicheranbieter sind und an der Entwicklung einer OpenSharing-Integration interessiert sind, besuchen Sie das Partner Well Architected Framework oder wenden Sie sich an das Databricks-Partner-Team, um loszulegen.
Wenn Sie ein Unternehmenskunde sind und Ihre On-Premises-Speicherumgebung mit Databricks verbinden möchten, wenden Sie sich an Ihr Account-Team, um mehr zu erfahren.
Die Ära von „Alles migrieren“ ist vorbei. Die Ära von „Alles verwalten“ beginnt heute.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.