Ir para o conteúdo principal

Anunciando a Public Preview de ML distribuído em clusters Serverless e Standard

Announcing the Public Preview of Distributed ML on Serverless and Standard Clusters

Summary

  • Suporte a ML distribuído: execução Apache Spark™ MLlib (Python), Optuna, MLflow Spark e Joblib Spark em Notebooks serverless, Jobs e clusters padrão.
  • Compute e governança unificadas: escala cargas de trabalho de ML com segurança integrada, controle de acesso refinado e isolamento multiusuário com tecnologia do Lakeguard e do Spark Connect.
  • Oferta abrangente de biblioteca de ML: essas adições complementam as bibliotecas de ML de nó único existentes, como Scikit-learn, XGBoost e LightGBM, oferecendo uma experiência de ML completa em compute padrão e serverless.

A Prévia Pública do Apache Spark MLlib (Python) e do Optuna em Notebooks e Jobs serverless, bem como em clustering padrão, traz o machine learning distribuído para os ambientes de compute unificados do Databricks, combinando performance, segurança e facilidade de colaboração sem a necessidade de clustering dedicados.

Do ML dedicado ao ML Serverless

Até agora, as cargas de trabalho de ML distribuído, como o treinamento com o Apache Spark MLlib ou o ajuste de hiperparâmetros com o Optuna, só podiam ser executadas em clusters dedicados. Embora eficazes, os clusters dedicados são ambientes de identidade única (usuário ou grupo) que não possuem controle de acesso refinado (FGAC) nativo, limitando a colaboração segura entre vários usuários.

Com este lançamento, a Databricks estende os recursos de ML distribuído para serverless e clusters padrão, permitindo que as equipes escalem suas cargas de trabalho de machine learning com segurança e governança integrada.

Essas melhorias complementam o suporte existente para ML de nó único, incluindo Scikit-learn, XGBoost e LightGBM, oferecendo uma experiência de machine learning unificada de ponta a ponta em todas as opções de compute do Databricks.

Capacidades de ML ampliadas no Databricks Compute

Os usuários do Databricks agora podem executar workloads de ML distribuídos em clusters serverless e padrão, incluindo:

  • Ensine modelos distribuídos usando o Apache Spark MLlib (Python)
  • Realize o ajuste de hiperparâmetros em grande escala com o Optuna
  • Acompanhe e gerencie experimentos com o MLflow Spark
  • Distribua cargas de trabalho de nó único do Scikit-learn, LightGBM e XGBoost usando o Joblib Spark

Juntos, esses recursos unificam a experiência de ML, permitindo que as equipes escala de forma transparente, da experimentação local a workloads de produção distribuídos.

Compute e Governança Unificadas

A tecnología Lakeguard da Databricks, criada com base no Spark Connect, potencializa a compute padrão e serverless com controle de acesso refinado (FGAC) e isolamento multiusuário. Isso ajuda a garantir que os dados e as cargas de trabalho sejam protegidos na mesma camada de governança, independentemente de você gerenciar seus próprios clusters ou usar o compute serverless.

Os principais benefícios incluem:

  • Experiência de compute unificada: execução ML distribuído juntamente com cargas de trabalho de analítica e ETL em compute padrão e serverless.
  • Colaboração segura entre vários usuários: Vários usuários podem executar workloads do Spark concorrentes, isolados com segurança em ambientes compartilhados.
  • Aplicação nativa de FGAC: Permissões, controle de acesso baseado em atributos (ABAC), filtros de linha e máscaras de coluna são aplicados por usuário para acesso seguro a recursos e modelos.

Esses recursos, introduzidos no Spark 4 e agora integrados ao Databricks, oferecem a próxima geração de machine learning distribuído para equipes de dados modernas.

Hozumi Nakamo, Gerente de Produto da SAP, compartilhou:

"A disponibilidade do Apache Spark MLlib na compute serverless da Databricks capacita os clientes da SAP Databricks a escala machine learning sem dores de cabeça com infraestrutura, facilitando a extração de entendimentos de dados de negócios de forma segura e eficiente."

Isso reflete como o compute serverless do Databricks simplifica o ML distribuído — permitindo que os clientes se concentrem nos entendimentos em vez da infraestrutura.

Desenvolvido com a comunidade de código aberto

Este marco reflete a colaboração contínua da Databricks com a comunidade de código aberto, incluindo o trabalho com a NVIDIA, uma colaboradora de longa data do Apache Spark. Juntas, a Databricks e a NVIDIA expandiram o Spark ML para o Spark Connect como parte do lançamento do Spark 4, permitindo que cargas de trabalho de ML distribuído tenham execução com eficiência tanto em compute padrão quanto serverless.

Andrew Feng, vice-presidente de software de GPU da NVIDIA, disse:

"O Spark Connect representa uma nova era de acessibilidade e facilidade de adoção para os usuários do Spark. A NVIDIA tem atuado na comunidade de código aberto do Spark há mais de sete anos. Ao estender o Spark MLlib com suporte no Spark Connect, as empresas agora podem alcançar aceleração de GPU de ponta a ponta sem esforço e sem alterações de código, proporcionando ganhos de desempenho revolucionários de até 9x e reduzindo os custos em até 80%. Esta é a arquitetura que adotamos na NVIDIA e que também ajudamos as empresas a adotar. Está redefinindo o que é possível com dados e AI em grande escala."

Por meio desta colaboração com a NVIDIA e a comunidade Spark em geral, a Databricks continua a tornar o ML distribuído mais performático, acessível e econômico para todas as empresas.

Comece agora

Comece a executar ML distribuído no Databricks hoje mesmo:

  • Em serverless compute: anexe sua carga de trabalho à serverless compute usando a versão de ambiente 4 ou superior. Hoje, isso pode ser executado em CPUs e GPUs (beta).
  • Em clusters padrão: use o Databricks Runtime 17.0 ou acima e execute seus workloads normalmente.

Saiba mais

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada