データサイエンス・ML

ページ 3

Databricks Lakehouse AIでLlama 2 Foundation Modelsが利用可能になりました！

October 11, 2023 Kasey Uhlenhuth、Sid Murching、Lu Wang、Ankit Mathur、アフメド・ビラルによる投稿 in データサイエンス・ML

翻訳：Saki Kitaoka. - Original Blog Link 私たちは、Meta AIのLlama 2 チャットモデル ( Meta AI’s Llama 2 ) が Databricks Marketplace で利用可能になり、プライベートモデルのサービングエンドポイントに微調整してデプロイできることを発表できることを嬉しく思います。Databricksマーケットプレイスは、クラウド、リージョン、プラットフォーム間でデータアセット（データセットやノートブックを含む）を共有および交換できるオープンなマーケットプレイスです。既にマーケットプレイスで提供されているデータアセットに加え、この新しいリスティングは、7から70ビリオンのパラメータを持つLlama 2のチャット指向の大規模言語モデル（LLM）、およびUnityカタログの集中ガバナンスと系統追跡へのインスタントアクセスを提供します。各モデルはMLflowにラップされており、Databricksノートブックで MLflow Evaluation.

Databricks Model Servingを使用したプライベートLLMのデプロイ

September 28, 2023 アフメド・ビラル、Ankit Mathur、Kasey Uhlenhuth、Joshua Hartman による投稿 in データサイエンス・ML

翻訳：Saki Kitaoka. - Original Blog Link Databricks Model ServingのGPUおよびLLM最適化サポートのパブリックプレビューを発表できることを嬉しく思います！この発表により、LLMやVisionモデルを含む、あらゆるタイプのオープンソースまたは独自のカスタムAIモデルをLakehouseプラットフォーム上にデプロイできるようになります。Databricks Model Servingは、LLM Serving用にモデルを自動的に最適化し、設定なしでクラス最高のパフォーマンスを提供します。 Databricks Model Servingは、統合データおよびAIプラットフォーム上で開発された初のサーバーレスGPUサービング製品です。これにより、データの取り込みから微調整、モデルのデプロイ、モニタリングに至るまで、GenAIアプリケーションの構築とデプロイをすべて単一のプラットフォーム上で行うことができます。 Azure上のユーザーは、Model Serving

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

August 24, 2023 Kasey Uhlenhuth、Xiangrui Meng、ハゲイ・ルペスコ、Sean Owen、コーリー・ズマール、リャン・チャン、イナ・コレワ、ウラジミール・コロフスキー、Arpit Jasapara による投稿 in データサイエンス・ML

翻訳：Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG（Retrieval Augmented Generation）アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI（ Databricks Model Serving 経由）、プロプライエ

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

MLflow AI Gatewayの発表

July 25, 2023 Arpit Jasapara、ベン・ウィルソン、コーリー・ズマール、Harutaka Kawamura、ミンギュ・リー、ウラジミール・コロフスキー、Zhe Wang による投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link 大規模言語モデル（LLM）は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう：チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題これらの課題は、組織がイノベーシ

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 29, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

May 10, 2023 Vinny Vijeyakumaar による投稿 in エンジニアリングのブログ

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳： junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない！スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

April 20, 2023 ブライアン・ロー、Rithwik Ediga Lakhamsani による投稿 in エンジニアリングのブログ

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳： junichi.maruyama 背景と動機ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

機械学習を向上させる合成データ

April 11, 2023 Sean Owen による投稿 in エンジニアリングのブログ

Original Blog : Synthetic Data for Better Machine Learning 翻訳： junichi.maruyama この1年で最も話題になった、 ChatGPT や DALL-E のような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア（ diffusion models 、 generative adversarial networks 、GAN）は、遊んでみると楽しく、恐ろしいとさえ感じます。...

機械学習で母親を助ける：CareSourceはハイリスク妊娠のヘルスケア改善のためにどのようにMLOpsを活用したか

April 4, 2023 Chengyin Eng、Russ Scoville、Arpit Gupta、Alvaro Aleman による投稿 in エンジニアリングのブログ

このブログ投稿はCareSourceのRuss Scoville (Vice President of Enterprise Data Services)、Arpit Gupta (Director of Predictive Analytics and Data Science)、and Alvaro Aleman (Senior Data Scientist) との共同によるものです。 Original...