A Prévia Pública do Apache Spark MLlib (Python) e do Optuna em Notebooks e Jobs serverless, bem como em clustering padrão, traz o machine learning distribuído para os ambientes de compute unificados do Databricks, combinando performance, segurança e facilidade de colaboração sem a necessidade de clustering dedicados.
Até agora, as cargas de trabalho de ML distribuído, como o treinamento com o Apache Spark MLlib ou o ajuste de hiperparâmetros com o Optuna, só podiam ser executadas em clusters dedicados. Embora eficazes, os clusters dedicados são ambientes de identidade única (usuário ou grupo) que não possuem controle de acesso refinado (FGAC) nativo, limitando a colaboração segura entre vários usuários.
Com este lançamento, a Databricks estende os recursos de ML distribuído para serverless e clusters padrão, permitindo que as equipes escalem suas cargas de trabalho de machine learning com segurança e governança integrada.
Essas melhorias complementam o suporte existente para ML de nó único, incluindo Scikit-learn, XGBoost e LightGBM, oferecendo uma experiência de machine learning unificada de ponta a ponta em todas as opções de compute do Databricks.
Os usuários do Databricks agora podem executar workloads de ML distribuídos em clusters serverless e padrão, incluindo:
Juntos, esses recursos unificam a experiência de ML, permitindo que as equipes escala de forma transparente, da experimentação local a workloads de produção distribuídos.
A tecnología Lakeguard da Databricks, criada com base no Spark Connect, potencializa a compute padrão e serverless com controle de acesso refinado (FGAC) e isolamento multiusuário. Isso ajuda a garantir que os dados e as cargas de trabalho sejam protegidos na mesma camada de governança, independentemente de você gerenciar seus próprios clusters ou usar o compute serverless.
Os principais benefícios incluem:
Esses recursos, introduzidos no Spark 4 e agora integrados ao Databricks, oferecem a próxima geração de machine learning distribuído para equipes de dados modernas.
Hozumi Nakamo, Gerente de Produto da SAP, compartilhou:
"A disponibilidade do Apache Spark MLlib na compute serverless da Databricks capacita os clientes da SAP Databricks a escala machine learning sem dores de cabeça com infraestrutura, facilitando a extração de entendimentos de dados de negócios de forma segura e eficiente."
Isso reflete como o compute serverless do Databricks simplifica o ML distribuído — permitindo que os clientes se concentrem nos entendimentos em vez da infraestrutura.
Este marco reflete a colaboração contínua da Databricks com a comunidade de código aberto, incluindo o trabalho com a NVIDIA, uma colaboradora de longa data do Apache Spark. Juntas, a Databricks e a NVIDIA expandiram o Spark ML para o Spark Connect como parte do lançamento do Spark 4, permitindo que cargas de trabalho de ML distribuído tenham execução com eficiência tanto em compute padrão quanto serverless.
Andrew Feng, vice-presidente de software de GPU da NVIDIA, disse:
"O Spark Connect representa uma nova era de acessibilidade e facilidade de adoção para os usuários do Spark. A NVIDIA tem atuado na comunidade de código aberto do Spark há mais de sete anos. Ao estender o Spark MLlib com suporte no Spark Connect, as empresas agora podem alcançar aceleração de GPU de ponta a ponta sem esforço e sem alterações de código, proporcionando ganhos de desempenho revolucionários de até 9x e reduzindo os custos em até 80%. Esta é a arquitetura que adotamos na NVIDIA e que também ajudamos as empresas a adotar. Está redefinindo o que é possível com dados e AI em grande escala."
Por meio desta colaboração com a NVIDIA e a comunidade Spark em geral, a Databricks continua a tornar o ML distribuído mais performático, acessível e econômico para todas as empresas.
Comece a executar ML distribuído no Databricks hoje mesmo:
Saiba mais
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

