生成 AI | Databricks Blog

ページ 2

調査：Databricks Assistant による生産性の向上

May 14, 2024 サマンサ・バンチック、ジャッキー・チャン、リチャード・トムリンソンによる投稿 in 生成 AI

データサイエンスとエンジニアリングの急速に進歩する分野では、生産性を向上させるために人工知能 (AI) の統合が不可欠になっています。数多くのツールが登場し、データ実務者の生活を一変させ、複雑なタスクを容易にし、イノベーションを促進してきました。 2023 年 7 月に Databricks Assistant をパブリックプレビューでリリースしたとき、私たちはデータサイエンティスト、アナリスト、エンジニア間の効率を合理化することのみを目的として設計しました。この目標をどの程度達成しているかをよりよく理解するために、経験の異なる複数の組織のトップユーザーを対象に調査を行うことにしました。調査の目的 Databricks Assistant がデータプロフェッショナルに与える影響をより深く理解するために、幅広いユーザーエクスペリエンスを捉えられるようにこの調査を綿密に設計しました。このアンケートを実施した目的は、アシスタントがユーザーの日常生活に与える影響をよりよく理解するだけでなく、アシスタント

Mosaic AI TrainingでDBRX級のカスタムLLMを構築しよう！

May 14, 2024 アンナ・プフォール、チェン・リー、ミヒル・パテル、ワイ・ウー、ウィル・グライヒ、アジャイ・サイニ、ハゲイ・ルペスコによる投稿 in モザイクAIリサーチ

私たちは最近、 DBRX という最新の汎用LLM（大規模言語モデル）を発表しました。DBRXは、Mosaic AI Trainingを使用してトレーニング、ファインチューニング、および評価されました。トレーニングは3072台のNVIDIA H100を使用してスケーリングされ、処理したトークン数は12兆を超えました。 LLMのトレーニング、特にDBRXのようなMoE（専門家の集合）モデルのトレーニングは難しいです。これには、多くのインフラ、パフォーマンス、科学的な課題を克服する必要があります。Mosaic AI Trainingはこれらの課題に対応するために意図的に構築され、 DBRX 、 MPTシリーズのモデル、および Ola の Krutrim 、 AI2 の OLMo 、 Dynamo AIの...

Databricks で Text2SQL のパフォーマンスを簡単に向上

May 13, 2024 マシュー・ヘイズ、エヴィオン・キム、劉林慶、アルヌール・アリ、リテンドラ・ダッタ、サム・シャーによる投稿 in 生成 AI

Databricksでの巧みなプロンプトとファインチューニングにより、Llama3 8B で Spider dev データセットの 79.9% に到達した方法。

Databricks モデルサービングの新たなアップデートで生成 AI アプリ開発を加速

May 9, 2024 アフメド・ビラル、Kasey Uhlenhuth による投稿 in 生成 AI

昨年、 Databricksモデルサービングにおける基盤モデルのサポートを開始し、企業が統合データおよび AI プラットフォーム上で安全でカスタマイズされた生成 AI アプリを構築できるようにしました。それ以来、何千もの組織がモデルサービングを使用して、独自のデータセットに合わせてカスタマイズされた生成 AI アプリを展開してきました。本日、生成 AI アプリの実験、カスタマイズ、展開を容易にする新しいアップデートを発表できることを嬉しく思います。これらの更新には、新しい大規模言語モデル (LLM) へのアクセス、より簡単な検出、よりシンプルなカスタマイズオプション、および改善されたモニタリングが含まれます。これらの改善により、生成 AI...

モザイク評価ガントレットのキャリブレーション

April 30, 2024 テッサ・バートンによる投稿 in モザイクAIリサーチ

良いベンチマークとは、どのモデルが優れていて、どのモデルが劣っているかを明確に示すものです。 Databricks Mosaic Researchチームは、研究者が実験を評価するための優れた測定ツールを見つけることに専念しています。モザイク評価ガントレットは、モデルの質を評価するためのベンチマークセットで、言語理解、読解力、記号的問題解決、世界知識、常識、プログラミングの6つのコアコンピテンシーにまたがる39の公開ベンチマークで構成されています。モデル規模を超えた研究タスクに最も有用なメトリクスに優先順位をつけるため、一連の高度なモデルを使用してベンチマークをテストしました。最近の研究、特に DeepMindのChinchilla論文では、パラメータ数と学習データサイズの両方を増やすことで言語モデルをスケールアップすると、性能が大幅に向上することが実証されています。信頼できるベンチマークセットを特定するには、モデルの性能とスケールの間に確立された関係を活用します。スケーリング法則は個々のベンチマーク

正確性、安全性、ガバナンス：生成AIをPOCからプロダクションに移行する方法

April 17, 2024 エミリー・ハトソン、ニコラス・ペラエス、アリ・カプランによる投稿 in 生成 AI

生成AIの企業導入に関して、ほとんどの組織は過渡期にあります。私たちが話をした顧客の88% は、現在、生成AIのパイロットプロジェクトを実行していると述べていますが、大多数は、テスト環境から本番環境に実験を移行することに神経質になりすぎているとも述べています。では、何がこの格差を引き起こしているのでしょうか？それがコストとリスクに関する懸念です。以前は、IT投資を行う場合、企業は「構築すれば価値は後からやってくる」という考え方をすることができましたが、もう違います。現在は、新しいプロジェクトは、ビジネスにとって価値あるものを迅速に生み出すことが求められています。かつては、役員や投資家はIT投資に対するリターンが得られるまで数年待っても構わなかったかもしれませんが、今ではわずか6ヶ月での進展を求めています。企業は、生成AI開発コストのROIを懸念しているだけでなく、AIシステムが悪い結果や不正確な結果（ハルシネーションなど）を吐き出し、ビジネスに損害を与えたり、企業の機密情報が漏洩する可能性があるこ

ビジネスにおけるAIはデータインテリジェンスでどう変わるか

April 17, 2024 ミン・ヤンによる投稿 in 生成 AI

AIは至る所に存在します。携帯電話にも、コンピューターにも、そしてニュースの見出しにも頻繁に登場します。しかし、すべての見出しの背後で、ビジネスにおけるAIの利用が不可欠となっており、今後もその使用が無くなる兆しはありません。では、データインテリジェンスの未来は、企業にとってのAIにどのような影響を与えるのでしょうか？私たちは、AIが現在どのように活用されているのか、今後さまざまな業界でどのように活用される可能性があるのか、また、データ管理システムの内部と外部、そして独自の課題を探ることで、この問いに答え、データインテリジェンスがビジネスにおけるAIの活用にどのような革命をもたらすことができるのかを理解します。ビジネスにおけるAI活用の現状ワークフローの合理化からデータ分析まで、AIの活用はあらゆる規模、あらゆる業界のビジネスの主流となっています。 1. よりスマートなリスク管理明確なリスク管理戦略を持つことは現代企業にとって必須ですが、個人が計画できることは限られています。利用可能なデータの量が多

MegaBlocksをDatabricksへ: 次世代のトレーニングパワーを解き放つ

April 9, 2024 ミヒル・パテル、トレバー・ゲイル、ヴィタリー・チリーによる投稿 in モザイクAIリサーチ

Databricksでは、大規模AIモデルのための最も効率的で高性能なトレーニングツールの構築に尽力しています。最近リリースされた DBRX では、トレーニングと推論の効率を大幅に向上させるMixture-of-Experts（MoE）モデルの力を強調しました。本日、DBRXのトレーニングに使用されたオープンソースライブラリである MegaBlocks が公式のDatabricksプロジェクトになることを発表します。また、オープンソースのトレーニングスタックである LLMFoundry へのMegaBlocks統合もリリースします。これらのオープンソースリリースに加え、スケールで最高のパフォーマンスを得る準備ができたお客様に対して、最適化された内部バージョンのオンボーディングも開始します。 Mixture of Experts（MoE）モデルとは？ Mixture of Experts（MoE）モデルは、複数の専門ネットワーク、または「エキスパート」の出力を組み合わせて予測を行う機械学習モデルです。各エキスパート

DatabricksでDSPyを活用しよう！

April 8, 2024 アルナヴ・シンヴィ、マイケル・カービン、Matei Zaharia による投稿 in モザイクAIリサーチ

大規模言語モデル（LLM）は、プロンプト技術を最適化することで効果的な人間とAIの対話に注目を集めています。「プロンプトエンジニアリング」は、モデルの出力を調整するための成長中の方法論であり、検索拡張生成（RAG）などの高度な技術は、関連情報を取得して応答することでLLMの生成能力を強化します。スタンフォードNLPグループが開発したDSPyは、「プロンプトではなくプログラミングで基盤モデルを構築する」ためのフレームワークとして登場しました。現在、DSPyはDatabricksの開発者エンドポイントとの統合をサポートしており、 Model Serving や Vector Search が可能です。複合AIのエンジニアリングこれらのプロンプト技術は、AI開発者がLLM、リトリーバルモデル（RM）、その他のコンポーネントを組み込んで複合AIシステムを開発する際に、複雑な「プロンプトパイプライン」へのシフトを示しています。プロンプトではなくプログラミング: DSPy DSPyは、下流タスクのメトリクスに向け

DBRXのご紹介：最新のオープンLLM

March 27, 2024 モザイク調査チームによる投稿 in モザイクAIリサーチ

本日、Databricksが開発したオープンで汎用的なLLM、DBRXをご紹介します。 DBRXは、さまざまな標準ベンチマークにおいて、確立されたオープンLLMの新たな最先端を打ち立てました。さらに、これまでクローズドモデルのAPIに限られていた機能を、オープンコミュニティや独自のLLMを構築する企業に提供します。私たちの測定によると、GPT-3.5を上回り、Gemini 1.0 Proに引けを取りません。汎用LLMとしての強みに加え、CodeLaMA-70Bのようなプログラミングに特化したモデルを凌ぐ、特に優れたコードモデルです。この最先端の品質は、訓練と推論の性能の著しい向上とともにもたらされます。 DBRXは、そのきめ細かなMoE（Mixture-of-Experts; 専門家混合）アーキテクチャにより、オープンモデルの中で最先端の効率性を実現しています。推論はLLaMA2-70Bの2倍速く、DBRXはGrok-1の約40%のサイズです。 Mosaic AI Model Serving上でホストされ