エンジニアリングのブログ

ページ 6

LoRAによる効率的なファインチューニング：大規模言語モデルの最適パラメータ選択ガイド

August 30, 2023 アビナッシュ・スーリヤラッチによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link ニューラルネットワークベースの技術や大規模言語モデル（LLM）研究の急速な進歩に伴い、企業は価値生成のためのAIアプリケーションにますます関心を寄せている。これらの企業は、分類、要約、シーケンス間タスク、制御されたテキスト生成など、テキスト関連の課題に対処するために、生成および非生成の両方で、さまざまな機械学習アプローチを採用している。組織はサードパーティのAPIを選択することもできるが、独自のデータでモデルを微調整することで、ドメイン固有の適切な結果を提供し、安全な方法でさまざまな環境に展開可能な、費用対効果の高い独立したソリューションを可能にする。ファインチューニングの戦略を選択する際には、効率的なリソース利用と費用対効果を確保することが重要です。このブログでは、このようなパラメータ効率的な手法の中で、間違いなく最も一般的で効果的なバリエーションであるLoRA（Low Rank Adaptation）について、特にQLoRA

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

August 24, 2023 Kasey Uhlenhuth、Xiangrui Meng、ハゲイ・ルペスコ、Sean Owen、コーリー・ズマール、リャン・チャン、イナ・コレワ、ウラジミール・コロフスキー、Arpit Jasapara による投稿 in データサイエンス・ML

翻訳：Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG（Retrieval Augmented Generation）アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI（ Databricks Model Serving 経由）、プロプライエ

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in データエンジニアリング

Databricksには Databricksワークフローという機能があります。 Databricksノートブックで開発したロジックを簡単にスケジュール処理にすることができます。しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

August 7, 2023 Angela Chu、イム・ジョンテクによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse をストリーミングに最適なプラットフォームとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

MLflow AI Gatewayの発表

July 25, 2023 Arpit Jasapara、ベン・ウィルソン、コーリー・ズマール、Harutaka Kawamura、ミンギュ・リー、ウラジミール・コロフスキー、Zhe Wang による投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link 大規模言語モデル（LLM）は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう：チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題これらの課題は、組織がイノベーシ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

June 29, 2023 Karthik Ramasamy、Michael Armbrust、Matei Zaharia、Reynold Xin（レイノルド・シン）、Praveen Gattu、Ray Zhu、Shrikanth Shankar、Awez Syed、サミール・パランジパイ、Frank Munz、マット・ジョーンズによる投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。本記事の背景ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

June 29, 2023 Ryan Johnson、Michael Armbrust、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

Apache Sparkのための新しいプログラミング言語としての「英語」

June 29, 2023 Gengliang Wang、Xiangrui Meng、Reynold Xin（レイノルド・シン）、アリソン・ワン、アマンダ・リュー、Denny Lee による投稿 in オープンソース

翻訳: Masahiko Kitamura オリジナル記事： Introducing English as the New Programming Language for Apache Spark はじめに私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します！動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 29, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...