メインコンテンツへジャンプ

大規模言語モデル(LLM)は企業の世界を熱狂させ、誰もがその利点を利用したいと考えている。実際、DatabricksとMIT Technology Reviewがテクノロジー・リーダーを対象に行った最近の調査によると、企業の47%が今年のAI予算を25%以上増やすと見込んでいる。

このような勢いにもかかわらず、多くの企業は、LLM、AI、機械学習が自社の組織内でどのように利用できるのか、まだ正確には分かっていない。プライバシーやセキュリティに関する懸念は、この不確実性をさらに大きくしている。情報漏洩やハッキングが発生すれば、多額の財務的損失や風評被害を招き、規制当局の監視の目にさらされる可能性があるからだ。

しかし、AIイノベーションを取り入れることで得られる報酬は、リスクをはるかに上回る。適切なツールとガイダンスがあれば、組織は非公開でコンプライアンスに準拠した方法でAIモデルを迅速に構築し、拡張することができる。ジェネレーティブAIが多くの企業の将来に影響を与えることを考えると、モデルの構築とカスタマイズを社内で行うことは重要な能力となる。

企業におけるデータガバナンスなくしてGenAIは存在し得ない

責任あるAIには、優れたデータガバナンスが必要だ。データは安全に保管されなければならないが、サイバー犯罪者の攻撃が巧妙になるにつれ、この作業はますます難しくなっている。また、適用される規制に従ってデータを使用しなければならないが、その規制は地域、国、あるいは地域によってますます独特になっている。状況は厄介なものになる。上記リンク先のDatabricks-MITの調査によると、大企業の大半は10以上のデータおよびAIシステムを運用しており、28%は20を超えている。 

この問題をさらに深刻にしているのは、企業がデータを使って何をしたいかということだ。モデルのトレーニング、予測分析、自動化、ビジネス・インテリジェンスなど、さまざまな用途がある。もちろん、ガードレールはあるが)企業は、組織内のすべての従業員が成果にアクセスできるようにしたいと考えている。当然ながら、最も正確な洞察にできるだけ早くアクセスできるよう、スピードが最も重要である。

組織の規模によっては、すべての情報をコンプライアンスに従って社内に配布することが大きな負担になる場合もある。どの従業員がどのデータにアクセスできるのか?さらに問題を複雑にしているのは、従業員の退職や買収、新たな規制の施行に伴い、データ・アクセス・ポリシーが常に変化していることだ。

データの履歴も重要で、企業は誰がどの情報を使用しているかを追跡できなければならない。ファイルがどこにあり、何に使われているのかが分からないと、企業は多額の罰金にさらされる可能性がある。また、不適切なアクセスによって機密情報が危険にさらされ、サイバー攻撃にさらされる可能性もある。

カスタムLLMが重要な理由

AIモデルは、膨大な量の独自データを運用し、より円滑な業務運営、既存の収益源の改善、新たな成長分野の特定に活用する能力を企業に与えている。Databricks-MITのレポートによると、今後2年間で、調査対象となったテクノロジー・リーダーの81%が、AI投資により少なくとも25%の効率性向上を見込んでいる。

ほとんどの企業にとって、AIの実用化には、組織的、文化的、技術的なオーバーホールが必要だ。AIに費やした資金と時間のリターンを得るには、何度もスタートとストップを繰り返す必要があるかもしれないが、ハードウェアのプロビジョニングが安価になり、アプリケーションの導入が容易になれば、AI導入の障壁は低くなる一方だ。AIはすでに企業内に浸透しつつあり、先行者利益は本物だ。

では、手始めに既製のモデルを使うことの何が問題なのだろうか?これらのモデルはLLMの能力を実証するのに役立つが、誰でも利用できるものでもある。競争上の差別化はほとんどない。従業員は、それがどのように使われるかを十分に理解しないまま、機密データを入力するかもしれない。また、LLMの学習方法は透明性に欠けることが多いため、LLMの回答は古い情報や不正確な情報、さらに悪いことに他組織のIPに基づいていることもある。モデルのアウトプットを理解する最も安全な方法は、そのモデルにどのようなデータが使われたかを知ることだ。

最も重要なことは、既製のモデルを使用しても競争上の優位性はないということだ。実際、貴重なデータに基づいてカスタムモデルを作成することは、知的財産の創造の一形態と見なすことができる。AIは、企業が独自のデータに命を吹き込む方法なのだ。競合他社を含む)誰もが利用できるモデルのトレーニングのために他人に使わせるのは、あまりにも貴重なリソースだ。そのため、企業は独自のモデルをカスタマイズしたり構築したりする能力を持つことが不可欠なのだ。しかし、すべての企業が独自のChatGPT-4を構築する必要はない。より小規模で、よりドメインに特化したモデルも同様に変革をもたらす可能性があり、成功への道はいくつかある。

LLMとRAG:生成AIの出発点

理想的な世界では、企業は自社独自のモデルをゼロから構築するだろう。しかし、エンジニアリングの人材が不足している今、企業は市販のAIモデルをカスタマイズすることで、社内のリソースを補うことも考えるべきだ。

ゼロから構築するのではなく、ベスト・オブ・ブリードのLLMを微調整することで、企業は自社のデータを使ってモデルの能力を高めることができる。企業は、RAG(retrieval-augmented generation)を実装することで、モデルの能力をさらに高めることができる。新しいデータが入ってくると、そのデータはモデルにフィードバックされ、LLMは要求されたときに最新の関連情報を照会する。RAG機能は、モデルの説明可能性も高める。ヘルスケア、法律、金融などの規制業界では、どのようなデータがモデルに入力されるかを知ることが不可欠である。

このアプローチは、ジェネレーティブAIの実験に意欲的な企業にとって素晴らしい足がかりとなる。オープンソースやベスト・オブ・ブリードのLLMを改善するためにRAGを使用することで、企業がデータの可能性を理解し始め、AIがどのようにビジネスの変革に役立つかを理解するのに役立つ。

カスタムAIモデル:レベルアップでさらにカスタマイズすることが可能

カスタムAIモデルの構築には、(計算能力や技術的専門知識だけでなく)大量の情報が必要だ。良いニュース:企業はビジネスのあらゆる部分からデータを大量に持っている。(実際、多くの企業は実際にどれだけのデータを持っているのか知らないだろう)。

企業のダッシュボードやその他のビジネス・インテリジェンスを支えるような構造化されたデータセットも、動画や音声ファイルのような「非構造化」データを格納する内部ライブラリも、AIやMLモデルの学習に役立つ。必要であれば、組織は外部のデータセットで自社のデータを補完することもできる。

しかし、企業はAIやMLモデルの学習に役立つ重要なインプットを見落としている可能性がある。また、カスタム・モデルの学習に必要なデータ・ソースや計算ノードを管理するためのガイダンスも必要だ。そこで我々がお役に立てる。データ・インテリジェンス・プラットフォームは、サイロを排除し、すべてのデータとガバナンスのためのオープンで統一された基盤を提供するために、レイクハウス・アーキテクチャに基づいて構築されている。MosaicMLプラットフォームは、大規模なモデルのトレーニングと微調整の複雑さを抽象化し、あらゆる場所からデータをストリームし、あらゆるクラウドベースのコンピューティング環境で実行できるように設計されている。

AIの拡張に合わせた計画を立てる

AIモデルを構築する際のよくある間違いのひとつは、大量消費を想定していないことだ。多くの場合、LLMやその他のAIプロジェクトは、すべてが管理されたテスト環境ではうまく機能するが、ビジネスではそうはいかない。現実の世界ははるかに厄介で、企業はデータパイプラインの破損や障害などの要因を考慮する必要がある。

AIのデプロイメントでは、データの保護、信頼性、正確性を確認するために、常にデータを監視する必要がある。企業はますます、誰がデータにアクセスしているかの詳細なログ(データ・リネージと呼ばれるもの)を必要とするようになっている。   

単一のプラットフォームに統合することは、企業がより簡単に異常を発見できることを意味し、過重労働を強いられているデータ・セキュリティ・チームの生活を容易にする。この統一されたハブは、組織全体のあらゆるファイルの動きに関する「真実の情報源」として機能する。

AIの進歩を評価することを忘れずに

AIシステムが正しく機能し続けていることを確認する唯一の方法は、常に監視することだ。「作成してそのまま放置(set-IT-and-forget-IT)」の考え方は通用しない。

取り込むべき新しいデータソースは常に存在する。データパイプラインの問題は頻繁に発生する。モデルが "ハルシネーション "を見たり、悪い結果を出すこともある。だからこそ、企業はモデルのパフォーマンスと精度を簡単にモニターできるデータ・プラットフォームを必要としているのだ。

システムの成功を評価する際、企業は現実的なパラメーターを設定する必要もある。例えば、従業員の負担を軽減するためにカスタマーサービスを合理化することが目的であれば、人間のエージェントにエスカレーションされるクエリの数を追跡する必要がある。

DatabricksがAIプロジェクトの進捗管理をどのように支援しているかについては、MLflowと レイクハウス・モニタリングの 記事をご覧ください 。

まとめ

独自のLLMやGenAIモデルを構築したり微調整したりすることで、組織は、独自のビジネス価値を提供する洞察のために、可能な限り正確で関連性の高い情報に依存しているという確信を得ることができる。

Databricksでは、データ・インテリジェンス・プラットフォームにおけるAIのパワーを信じ、ガバナンスとモニタリングを改善したカスタムAIモデルへのアクセスを民主化する。今こそ、企業はGenerative AIを活用して、貴重なデータをイノベーションにつながる洞察に変える時だと確信している。私たちがお手伝いします。

このWebセミナーに参加して、DatabricksでGenerative AIソリューションを開始および構築する方法の詳細をご覧ください!

Databricks 無料トライアル

関連記事

Databricks + MosaicML

翻訳:Junichi Maruyama. - Original Blog Link 本日、私たちはMosaicMLの買収を完了したことをお伝えできることを嬉しく思います。MosaicMLは、企業向けにジェネレーティブAIモデルを作成し、カスタマイズするための先進的なプラットフォームです。Databricksの創業以来、私たちのミッションは、あらゆる企業のためにデータとAIを民主化することでした。MosaicMLと共に、ジェネレーティブAIアプリケーションのトレーニング、カスタマイズ、デプロイのためのクラス最高のエクスペリエンスを提供する予定です。 私たちはMosaicMLチームと協力し、ジェネレーティブAIを企業の主流にするために必要な3つの最も重要な開発を加速させます: モデル能力の迅速な民主化: 私たちは、すべての企業がモデルを広く利用できる未来を確信しています。あらゆるテクノロジーの民主化には、価格の引き下げとアクセスの向上が必要です。MosaicMLチームは、大規模な言語モデルのトレーニングとカスタマイズ

How Thasos Optimized and Scaled Geospatial Workloads with Mosaic on Databricks

October 12, 2022 Krishanu NandyZachary Warren による投稿 in
This is a collaborative post from Databricks and Thasos. We thank Zachary Warren (Lead Data Engineer) of Thasos for his contributions. Customer Insights...

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

Original Post: Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳: Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、 研究と商用利用 にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...
データ戦略一覧へ