メインコンテンツへジャンプ
<
ページ 5
>

Apache Spark™ 3.5のご紹介

翻訳:Junichi Maruyama. - Original Blog Link 本日、Databricks Runtime 14.0の一部として、Databricks上でApache Spark™ 3.5が利用可能になったことを発表いたします。Spark 3.5のリリースに多大な貢献をしていただいたApache Sparkコミュニティに深く感謝いたします。 Sparkをこれまで以上にアクセスしやすく、多用途で効率的なものにするという我々のミッションに沿った今回のアップデートには、以下のような新機能と改良が盛り込まれています: The English SDK for Apache Spark enables users to...

新しいLLMOps機能を備えたMLflow 2.7のご紹介

翻訳:Junichi Maruyama. - Original Blog Link MLflow 2のLLMOpsサポートの一環として、MLflow 2.7のプロンプト・エンジニアリングをサポートする最新のアップデートをご紹介します。 インタラクティブなプロンプト・インターフェイスでLLMプロジェクトの実行可能性を評価する プロンプトエンジニアリングは、ユースケースが大規模言語モデル(LLM)で解決できるかどうかを迅速に評価するための優れた方法です。MLflow 2.7 の 新しいプロンプト・エンジニアリング UI を使用すると、ビジネス関係者はさまざまなベースモデル、パラ メータ、プロンプトを試して、出力が新しいプロジェクトを開始するのに十分有望かどうかを確認できます。新規のブランク・エクスペリメントを作成するか(既存のエクスペリメントを開く)、「新規実行」をクリックするだけで、インタラクティブなプロンプト・エンジニアリング・ツールにアクセスできます。プレビューに参加するには、 こちら からサインアップしてくだ

LoRAによる効率的なファインチューニング:大規模言語モデルの最適パラメータ選択ガイド

翻訳:Junichi Maruyama. - Original Blog Link ニューラルネットワークベースの技術や大規模言語モデル(LLM)研究の急速な進歩に伴い、企業は価値生成のためのAIアプリケーションにますます関心を寄せている。これらの企業は、分類、要約、シーケンス間タスク、制御されたテキスト生成など、テキスト関連の課題に対処するために、生成および非生成の両方で、さまざまな機械学習アプローチを採用している。組織はサードパーティのAPIを選択することもできるが、独自のデータでモデルを微調整することで、ドメイン固有の適切な結果を提供し、安全な方法でさまざまな環境に展開可能な、費用対効果の高い独立したソリューションを可能にする。 ファインチューニングの戦略を選択する際には、効率的なリソース利用と費用対効果を確保することが重要です。このブログでは、このようなパラメータ効率的な手法の中で、間違いなく最も一般的で効果的なバリエーションであるLoRA(Low Rank Adaptation)について、特にQLoRA

MLflow AI GatewayとLlama 2を使ってジェネレーティブAIアプリを構築する

翻訳:Junichi Maruyama. - Original Blog Link 顧客サポートボット、社内ナレッジグラフ、またはQ&Aシステムを構築するために、顧客は多くの場合、事前に訓練されたモデルを独自のデータと一緒に活用するRAG(Retrieval Augmented Generation)アプリケーションを使用します。しかし、安全なクレデンシャル管理と不正使用防止のためのガードレールがないため、お客様はこれらのアプリケーションへのアクセスと開発を民主化することができません。私たちは最近、 MLflow AI Gateway を発表しました。これは拡張性の高いエンタープライズグレードのAPIゲートウェイで、組織がLLMを管理し、実験や生産に利用できるようにします。本日、AI Gatewayを拡張し、RAGアプリケーションをより良くサポートすることを発表できることを嬉しく思います。組織は、プライベートホスティングモデルAPI( Databricks Model Serving 経由)、プロプライエ

集まれ!Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 5として、前回のVol4 に引き続き 株式会社ナレッジコミュニケーション様 から 山川 将也 様 をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in データエンジニアリング
Databricksには Databricksワークフロー という機能があります。 Databricksノートブック で開発したロジックを簡単にスケジュール処理にすることができます。 しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

翻訳:Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse を ストリーミングに最適なプラットフォー ムとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

MLflow AI Gatewayの発表

翻訳:Junichi Maruyama. - Original Blog Link 大規模言語モデル(LLM)は、SQLウェアハウスに保存されたテキストデータのセンチメント分析から、製品に関するニュアンスの異なる質問に回答するリアルタイムのチャットボットの導入まで、ビジネス価値を提供する幅広い潜在的なユースケースを解き放ちます。 しかし、これらのアプリケーションのために強力なSaaSやオープンソースのLLMへのアクセスを民主化するには、セキュリティ、コスト、データ関連のさまざまな課題が伴います。 例えば、企業全体で SaaS LLM API トークンを効果的に管理するという具体的な課題を考えてみよう: チームがAPIトークンをプレーンテキストとして通信に貼り付けることによるセキュリティの問題 共有キーがアプリケーションのクラッシュやレート制限の乱用によるコストのピークにつながるというコストの問題 各チームがガードレールなしで独自のAPIトークンを管理することによるガバナンスの問題 これらの課題は、組織がイノベーシ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

翻訳:Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。 本記事の背景 ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

翻訳:Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...