メインコンテンツへジャンプ
<
ページ 7
>

LoRAによる効率的なファインチューニング:大規模言語モデルの最適パラメータ選択ガイド

翻訳:Junichi Maruyama. - Original Blog Link ニューラルネットワークベースの技術や大規模言語モデル(LLM)研究の急速な進歩に伴い、企業は価値生成のためのAIアプリケーションにますます関心を寄せている。これらの企業は、分類、要約、シーケンス間タスク、制御されたテキスト生成など、テキスト関連の課題に対処するために、生成および非生成の両方で、さまざまな機械学習アプローチを採用している。組織はサードパーティのAPIを選択することもできるが、独自のデータでモデルを微調整することで、ドメイン固有の適切な結果を提供し、安全な方法でさまざまな環境に展開可能な、費用対効果の高い独立したソリューションを可能にする。 ファインチューニングの戦略を選択する際には、効率的なリソース利用と費用対効果を確保することが重要です。このブログでは、このようなパラメータ効率的な手法の中で、間違いなく最も一般的で効果的なバリエーションであるLoRA(Low Rank Adaptation)について、特にQLoRA

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

翻訳:Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG(Retrieval Augmented Generation)アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI( Databricks Model Serving 経由)、プロプライエ

集まれ!Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 5として、前回のVol4 に引き続き 株式会社ナレッジコミュニケーション様 から 山川 将也 様 をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in データエンジニアリング
Databricksには Databricksワークフロー という機能があります。 Databricksノートブック で開発したロジックを簡単にスケジュール処理にすることができます。 しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

翻訳:Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse を ストリーミングに最適なプラットフォー ムとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

MLflow AI Gatewayの発表

翻訳:Junichi Maruyama. - Original Blog Link 大規模言語モデル(LLM)は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。 しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。 例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう: チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題 共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題 各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題 これらの課題は、組織がイノベーシ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

翻訳:Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。 本記事の背景 ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

翻訳:Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

Apache Sparkのための新しいプログラミング言語としての「英語」

翻訳: Masahiko Kitamura オリジナル記事: Introducing English as the New Programming Language for Apache Spark はじめに 私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します! 動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

集まれ!Legendary Heroes of DATA + AI !! Vol 4 

June 29, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 4として、 株式会社ナレッジコミュニケーション 小山 翼 様 をご紹介します。 —- 以前にご紹介したLegendary Heroes of...