Anunciando a Public Preview de ML distribuído em clusters Serverless e Standard

Announcing the Public Preview of Distributed ML on Serverless and Standard Clusters

Publicado: 18 de novembro de 2025

Produto4 min de leitura

por Martin Grund, Xiangrui Meng, Stefania Leone, Jakob Mund, Xiaohan Zhang, Xi Lyu, Herman van Hövell, Othon Crelier, Ruifeng Zheng, DB Tsai, Weichen Xu, Lu Wang, Ben Wilson e Serano Tannason

Summary

Suporte a ML distribuído: execução Apache Spark™ MLlib (Python), Optuna, MLflow Spark e Joblib Spark em Notebooks serverless, Jobs e clusters padrão.
Compute e governança unificadas: escala cargas de trabalho de ML com segurança integrada, controle de acesso refinado e isolamento multiusuário com tecnologia do Lakeguard e do Spark Connect.
Oferta abrangente de biblioteca de ML: essas adições complementam as bibliotecas de ML de nó único existentes, como Scikit-learn, XGBoost e LightGBM, oferecendo uma experiência de ML completa em compute padrão e serverless.

A Prévia Pública do Apache Spark MLlib (Python) e do Optuna em Notebooks e Jobs serverless, bem como em clustering padrão, traz o machine learning distribuído para os ambientes de compute unificados do Databricks, combinando performance, segurança e facilidade de colaboração sem a necessidade de clustering dedicados.

Do ML dedicado ao ML Serverless

Até agora, as cargas de trabalho de ML distribuído, como o treinamento com o Apache Spark MLlib ou o ajuste de hiperparâmetros com o Optuna, só podiam ser executadas em clusters dedicados. Embora eficazes, os clusters dedicados são ambientes de identidade única (usuário ou grupo) que não possuem controle de acesso refinado (FGAC) nativo, limitando a colaboração segura entre vários usuários.

Com este lançamento, a Databricks estende os recursos de ML distribuído para serverless e clusters padrão, permitindo que as equipes escalem suas cargas de trabalho de machine learning com segurança e governança integrada.

Essas melhorias complementam o suporte existente para ML de nó único, incluindo Scikit-learn, XGBoost e LightGBM, oferecendo uma experiência de machine learning unificada de ponta a ponta em todas as opções de compute do Databricks.

Capacidades de ML ampliadas no Databricks Compute

Os usuários do Databricks agora podem executar workloads de ML distribuídos em clusters serverless e padrão, incluindo:

Ensine modelos distribuídos usando o Apache Spark MLlib (Python)
Realize o ajuste de hiperparâmetros em grande escala com o Optuna
Acompanhe e gerencie experimentos com o MLflow Spark
Distribua cargas de trabalho de nó único do Scikit-learn, LightGBM e XGBoost usando o Joblib Spark

Juntos, esses recursos unificam a experiência de ML, permitindo que as equipes escala de forma transparente, da experimentação local a workloads de produção distribuídos.

Compute e Governança Unificadas

A tecnología Lakeguard da Databricks, criada com base no Spark Connect, potencializa a compute padrão e serverless com controle de acesso refinado (FGAC) e isolamento multiusuário. Isso ajuda a garantir que os dados e as cargas de trabalho sejam protegidos na mesma camada de governança, independentemente de você gerenciar seus próprios clusters ou usar o compute serverless.

Os principais benefícios incluem:

Experiência de compute unificada: execução ML distribuído juntamente com cargas de trabalho de analítica e ETL em compute padrão e serverless.
Colaboração segura entre vários usuários: Vários usuários podem executar workloads do Spark concorrentes, isolados com segurança em ambientes compartilhados.
Aplicação nativa de FGAC: Permissões, controle de acesso baseado em atributos (ABAC), filtros de linha e máscaras de coluna são aplicados por usuário para acesso seguro a recursos e modelos.

Esses recursos, introduzidos no Spark 4 e agora integrados ao Databricks, oferecem a próxima geração de machine learning distribuído para equipes de dados modernas.

Hozumi Nakamo, Gerente de Produto da SAP, compartilhou:

Isso reflete como o compute serverless do Databricks simplifica o ML distribuído — permitindo que os clientes se concentrem nos entendimentos em vez da infraestrutura.

Desenvolvido com a comunidade de código aberto

Este marco reflete a colaboração contínua da Databricks com a comunidade de código aberto, incluindo o trabalho com a NVIDIA, uma colaboradora de longa data do Apache Spark. Juntas, a Databricks e a NVIDIA expandiram o Spark ML para o Spark Connect como parte do lançamento do Spark 4, permitindo que cargas de trabalho de ML distribuído tenham execução com eficiência tanto em compute padrão quanto serverless.

Andrew Feng, vice-presidente de software de GPU da NVIDIA, disse:

Por meio desta colaboração com a NVIDIA e a comunidade Spark em geral, a Databricks continua a tornar o ML distribuído mais performático, acessível e econômico para todas as empresas.

Comece agora

Comece a executar ML distribuído no Databricks hoje mesmo:

Em serverless compute: anexe sua carga de trabalho à serverless compute usando a versão de ambiente 4 ou superior. Hoje, isso pode ser executado em CPUs e GPUs (beta).
Em clusters padrão: use o Databricks Runtime 17.0 ou acima e execute seus workloads normalmente.