Veröffentlicht: 19. März 2026
von Tejas Sundaresan, Jianwei Xie, Bandish Shah und Hanlin Tang
GPUs sind die treibende Kraft hinter den fortschrittlichsten KI-Workloads von heute – von Prognosen und Empfehlungen bis hin zu multimodalen Foundation Models. Allerdings haben Teams Schwierigkeiten bei der Beschaffung und Verwaltung von GPU-Infrastruktur, der Konfiguration von verteilten Trainingsumgebungen und dem Debugging von Engpässen bei der Datenladung. Forscher im Bereich Deep Learning möchten sich lieber auf die Modellierung konzentrieren, nicht auf die Fehlersuche in der Infrastruktur.
Wir freuen uns, die Public Preview von AI Runtime (AIR) anzukündigen, einem neuen Trainings-Stack, der bedarfsgesteuertes verteiltes GPU-Training auf A10 und H100 ermöglicht. AI Runtime enthält die gesamte Technologie, die für das Training von LLMs im großen Maßstab wie MPT und DBRX verwendet wird. Bereits in der Beta-Phase haben Hunderte von Kunden, darunter Rivian, Factset und YipitData, AIR genutzt, um Deep-Learning-Modelle zu trainieren und in die Produktion zu überführen. Die Anwendungsfälle reichen von Computer-Vision-Modellen über Empfehlungssysteme bis hin zu feinabgestimmten LLMs für agentenbasierte Aufgaben. Unser eigenes Databricks AI Research Team nutzte AIR für das Reinforcement Learning von Modellen, wie in unserem kürzlich veröffentlichten Paper über KARL.
Mit AI Runtime haben Databricks-Benutzer jetzt:

Für interaktive Entwicklung und Debugging verbinden Sie sich mit wenigen Klicks mit bedarfsgesteuerten A10 und H100 in Databricks Notebooks. Von dort aus nutzen Sie die gesamte Entwicklerergonomie, für die Databricks bekannt ist, von der Umgebungsverwaltung für gängige Python-Pakete bis hin zur agentengesteuerten Erstellung und Fehlersuche mit Genie Code. Hängen Sie einfach Daten aus dem Lakehouse ein, um Deep-Learning-Modelle zu trainieren, oder rufen Sie sogar eine Flotte von Remote-CPUs für Spark-Datenverarbeitungs-Workloads von Ihrem GPU-gestützten Notebook aus auf, um Ihre Daten vorzubereiten.

Nutzen Sie Genie Code, um Leistungsprobleme zu beheben, mit neuen Architekturen zu experimentieren oder knifflige Fehler bei der Modellkonvergenz oder kryptische Framework-Fehler zu beheben.
AI Runtime ist eine produktionsreife Plattform für beschleunigtes Computing. Entwickeln Sie Ihren Deep-Learning-Code in interaktiven Notebooks und nutzen Sie dann die volle Leistung von Lakeflow, um Jobs auf GPU-Compute zu übermitteln und zu orchestrieren. Sowohl Notebooks als auch benutzerdefinierte Code-Repositories können von Lakeflow für langlaufende oder geplante Jobs ausgeführt werden. Für Produktionsanforderungen wie CI/CD (Continuous Integration und Continuous Deployment) ist AI Runtime vollständig mit unseren Declarative Automation Bundles (DABs) kompatibel.
Mit unserer Lakeflow-Integration können Kunden das Modelltraining und die Feinabstimmung eng mit vorgelagerten Datenpipelines und nachgelagerten Produktionssystemen synchronisieren.
„Databricks' AI Runtime hat den Prozess des Trainings eines benutzerdefinierten Text-zu-Formel (TTF)-Modells stark vereinfacht. Ohne Infrastruktur-Setup oder Verzögerungen war es einfach, die richtige Rechenleistung basierend auf der Prompt-Größe und der Ausgabe-Token-Generierung auszuwählen. Dies ermöglichte es uns, schnell voranzukommen, unsere Lakehouse-Workflows beizubehalten und ein qualitativ hochwertiges Modell mit voller Governance zu liefern, wodurch die Zeit für Einrichtung, Training und Bereitstellung unseres Modells von Tagen auf Stunden reduziert wurde.“— Nikhil Sunderraj, Principal Machine Learning Engineer, FactSet Research Systems, Inc.

Verteilte Trainings-Workloads können mühsam vorzubereiten, zu debuggen und zu beobachten sein. Von der Fehlersuche bei RDMA-Setups über die Verfolgung von Telemetriedaten von mehreren GPUs bis hin zur richtigen Softwarekonfiguration können Benutzer leicht kritische Details übersehen, die das Modelltraining drastisch verlangsamen.
Stattdessen ist AI Runtime für den gesamten Deep-Learning-Lebenszyklus optimiert – und wurde entwickelt, um Ihnen Zeit zu sparen. Wichtige Abhängigkeiten wie PyTorch und CUDA sind vorinstalliert, zusammen mit optimierter Unterstützung für verteilte Trainings-Frameworks wie Ray, Hugging Face Transformers, Composer und andere Bibliotheken, sodass Sie sofort mit dem Training beginnen können, ohne Umgebungen verwalten zu müssen. Kunden können auch ihre eigenen Bibliotheken mitbringen, von Unsloth bis TorchRec bis hin zu benutzerdefinierten Trainingsschleifen.

Integrierte SDKs und Observability-Tools vereinfachen die Verwaltung verteilter Trainings-Workloads. MLflow ermöglicht eine tiefe Observability von GPU-Workloads mit automatischer Verfolgung der GPU-Auslastung und Trainings-Experimente. Egal, ob Sie Foundation Models feinabstimmen oder Prognose- und Personalisierungsmodelle trainieren, die Runtime ist optimiert, um Trainings-Workflows mit minimalem Einrichtungsaufwand zu beschleunigen.

Die heutige Public Preview von AI Runtime unterstützt verteiltes Training über 8x H100s in einem einzelnen Knoten, wobei die Unterstützung für mehrere Knoten derzeit in der Private Preview ist.
„Databricks' AI Runtime ermöglicht es uns, LLM-Workloads (Fine-Tuning und Inferenz) ohne Infrastruktur-Overhead direkt in unserem Lakehouse auszuführen. Diese nahtlose Integration vereinfacht unsere Pipelines und ermöglicht eine effiziente Nutzung von GPUs, sodass wir unseren Kunden qualitativ hochwertige KI-Einblicke liefern und uns auf Innovation statt auf Infrastruktur konzentrieren können.“— Lucas Froguel, Senior AI Platform Engineer, YipitData
AI Runtime integriert sich nativ in das Databricks Lakehouse und ermöglicht es Ihnen, GPU-Workloads dort auszuführen und zu steuern, wo sich Ihre Daten befinden. Dies eliminiert fragmentierte Workflows und vereinfacht den Weg von der Experimentierung zur Produktion.
Ihre KI-Workloads laufen vollständig innerhalb Ihrer Unternehmensdatenperimeter und bieten starke Governance und Sicherheit, ohne die Flexibilität für Experimente und Skalierung zu beeinträchtigen.
„Die Nutzung der serverlosen GPU-Unterstützung von Databricks innerhalb unseres Lakehouse ermöglicht es uns, fortschrittliche Audio- und multimodale Modelle effizient und ohne Infrastruktur-Overhead zu trainieren. Diese nahtlose Integration vereinfacht Workflows und ermöglicht eine effiziente Nutzung von GPU-Ressourcen, sodass wir Hochleistungssysteme liefern und uns auf Innovation konzentrieren können.“— Arjuna Siva, VP of Infotainment & Connectivity, Rivian and Volkswagen Group Technologies
Die Nachfrage nach beschleunigter Rechenleistung wächst weiter für KI-Workloads und agentenbasierte Systeme. AI Runtime ermöglicht es mehr Databricks-Kunden, NVIDIA-Hardware zu nutzen, um ihre KI-Workloads zu beschleunigen und ihr Geschäft voranzutreiben. Wir freuen uns, weiterhin mit NVIDIA zusammenzuarbeiten, um unseren Kunden die neueste NVIDIA-Technologie, wie den RTX PRO 4500 Blackwell Server Edition, der auf der GTC 2026 angekündigt wurde, anzubieten.
"Da die KI-Adaption branchenübergreifend beschleunigt wird, benötigen Unternehmen skalierbare, hochleistungsfähige Infrastrukturen, um ihre Daten- und KI-Workloads zu betreiben. NVIDIA-Technologien bringen beschleunigte Leistung in das AI Runtime-Angebot für die Databricks Lakehouse Platform."— Pat Lee, Vice President, Strategic Partnerships bei NVIDIA.
Um Ihnen den Einstieg zu erleichtern, haben wir mehrere Beispiel-Notebooks und Starter-Guides zusammengestellt:
Bitte wenden Sie sich an Ihr Account-Team, um mehr zu erfahren oder wenn Sie Fragen haben!
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag