エンジニアリングのブログ

ページ 4

オフラインLLM評価：Databricks上での段階的なGenAIアプリケーション評価

December 14, 2023 アベ・オモログベ、リャン・チャン、スニッシュ・シェス、コーリー・ズマール、マヘーシュワラン・ヴェンカタチャラムによる投稿 in エンジニアリングのブログ

背景 RAG（Retrieval-Augmented Generation）がAIを駆使したアプリケーションとの関わり方に革命をもたらす時代において、これらのシステムの効率性と有効性を確保することは、かつてないほど不可欠なことである。DatabricksとMLflowはこの革新の最前線にあり、GenAIアプリケーションの重要な評価のための合理化されたソリューションを提供している。このブログポストでは、Databricks Data Intelligence Platformを活用いて、GenAIアプリケーションの3つのコアコンポーネント（プロンプト、検索システム、Foundation LLM）の品質を強化および評価し、GenAIアプリケーションの継続的な品質を確保するためのするためにシンプルで効果的なプロセスを紹介する。ユースケース MLflowのドキュメントの質問に回答し、その結果を評価するQAチャットボットを作成する。 Databricksで外部モデルを設定する Databricksのモデルサービング

レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション

December 12, 2023 ジャクリーン・リー、アルキス・ポリゾティス、Kasey Uhlenhuth による投稿 in プラットフォームブログ

はじめに Databricks Lakehouse Monitoring (レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。 Unity Catalog に組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。 Lakehouseのモニタリングに対する統一されたアプローチにより、 Databricks Data Intelligence Platform で直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。なぜレイクハウス・モニタリングなのか？データパイプラインは順調に動いているよう

ファウンデーションモデル機能でGenAIアプリをより速く構築する方法

December 11, 2023 アフメド・ビラル、アスファンダイヤル・クレシ、マーガレット・チアン、謝建偉、スー・アン・ホン、ウラジミール・コロフスキー、ミンギュ・リー、Ankit Mathur による投稿 in エンジニアリングのブログ

先週発表した RAG（ Retrieval Augmented Generation ）に続き、Model Servingのメジャーアップデートを発表できることを嬉しく思います。Databricks Model Servingは統一されたインターフェイスを提供するようになり、すべてのクラウドとプロバイダで基盤モデルの実験、カスタマイズ、プロダクション化が容易になりました。これは、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して高品質のGenAIアプリを作成できることを意味します。新しい統一インターフェースにより、Databricks上であろうと外部でホストされていようと、すべてのモデルを一箇所で管理し、単一のAPIでクエリすることができます。さらに、Llama2 や MPT モデルなどの一般的な大規模言語モデル (LLM) に Databricks 内から直接アクセスできる Foundation Model API...

リアルタイムの構造化データでRAGアプリケーションの応答品質を向上

December 8, 2023 マニ・パルケ、アクラティ・タラティ、スー・アン・ホン、クレイグ・ワイリー、リャンチェンエン、葛明陽による投稿 in データサイエンス・ML

Retrieval Augmented Generation（RAG ）は、Gen AIアプリケーションのコンテキストとして関連データを提供する効率的なメカニズムです。ほとんどのRAGアプリケーションは、通常、ドキュメントやWiki、サポートチケットなどの非構造化データから関連するコンテキストを検索するためにベクトルインデックスを使用します。昨日、私たちはDatabricks Vector Search Public Previewを発表しました。しかし、これらのテキストベースのコンテキストを、関連性のあるパーソナライズされた構造化データで補強することで、Gen AIの応答品質をさらに向上させることができます。小売業のウェブサイトで、顧客が"最近の注文はどこですか？" と問い合わせる、Gen AIツールを想像してみてください。このAIは、クエリが特定の購買に関するものであることを理解し、LLMを使用して応答を生成する前に、注文品目の最新の出荷情報を収集しなければなりません。このようなスケーラブルなアプ

Databricks Vector Search パブリックプレビューのご紹介

December 7, 2023 アキル・グプタ、セルゲイ・ツァレフ、エリック・ピーターによる投稿 in エンジニアリングのブログ

昨日発表した RAG(Retrieval Augmented Generation )に続き、本日、Databricks Vector Searchのパブリックプレビューを発表します。6月に開催されたData + AI Summitでは、限られたお客様を対象としたプライベートプレビューを発表しましたが、今回はすべてのお客様にご利用いただけるようになりました。Databricks Vector Searchは、PDF、Officeドキュメント、Wikiなどの非構造化ドキュメントに対する類似検索を通じて、開発者がRAG（Retrieval Augmented Generation）や生成AIアプリケーションの精度を向上させることを可能にします。Vector Search は Databricks Data Intelligence Platform の一部であり、RAG およびジェネレーティブ...

Databricksで高品質のRAGアプリケーションを作成する

December 6, 2023 Patrick Wendell（パトリック・ウェンデル）、ハンリン・タンによる投稿 in お知らせ

RAG（Retrieval-Augmented-Generation ）は、独自のリアルタイムデータを LLM（Large Language Model）アプリケーションに組み込む強力な方法として、急速に台頭してきた。本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを本番で用いることができる品質にすることであることがわかった。顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

November 21, 2023 マシュー・ヘイズ、張宏毅、タオ・フェン、ザヒーラ・ヴァラーニ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

これは、大規模言語モデル（LLM）を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです。私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。現在、 Databricksのテーブルメタデータ更新の80％以上がAI支援によるものです。このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(！) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは？各データ・プラットフォームの中心には、データセット（多くの場合テーブル形式）の

Spark ConnectにおけるPythonの依存関係の管理方法

November 14, 2023 Hyukjin Kwon、鄭瑞鳳による投稿 in エンジニアリングのブログ

分散コンピューティング環境におけるアプリケーションの環境管理は難しい。すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesのようなスクリプトオプションや、 spark.jars.*のようなSparkコンフィギュレーションをサブミットする方法と同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。依存関係は静的にしか追加できず、実行中に変更することはできない。つまり、Driverを起動する前に必ず依存関係を設定する必要がある。この問題に対処するため、Apache Spark 3.5.0か

SQL関数の名前付き引数

November 13, 2023 ダニエル・テネドリオ、シンイ・ユー、アリソン・ワン、Wenchen Fan、セルジュ・リロー、リチャード・ユーによる投稿 in エンジニアリングのブログ

本日は、SQL関数で名前付き引数を利用できるようになったことを紹介します。この機能を使えば、より柔軟な方法で関数を呼び出すことが可能になります。このブログでは、まずこの機能がどのようなものかを紹介し、次にSQLユーザー定義関数（UDF）のコンテキストで何ができるかを示し、最後に組み込み関数でどのように機能するかを探ります。まとめると、名前付き引数はSQLのヘビーユーザーにとってもライトユーザーにとっても、作業を容易にする新しい便利な方法です。名前付き引数とは何か？多くのプログラミング言語では、関数定義に1つ以上の引数のデフォルト値を含めることができます。例えば、Pythonでは次のようなメソッドを定義できます： def botw(x, y = 6, z = 7): return x * y + z ユーザーがこの機能を呼び出したい場合、次のように選択できます： botw(5...

Python ユーザー定義テーブル関数（UDTFs）の紹介

November 7, 2023 アリソン・ワン、ダニエル・テネドリオ、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Apache Spark™ 3.5とDatabricks Runtime 14.0は、エキサイティングな機能をもたらした：Pythonのユーザー定義テーブル関数（UDTFs）です。このブログでは、UDTFとは何か、なぜUDTFは強力なのか、そしてどのようにUDTFを使うことができるのかについて説明する。 Pythonのユーザー定義テーブル関数（UDTF）とは？ Pythonのユーザー定義テーブル関数（UDTF）は、出力として単一のスカラー結果値の代わりにテーブルを返す新しい種類の関数です。一度登録されると、SQLクエリの FROM 句に登場させることができる。各Python UDTFは0個以上の引数を受け入れ、各引数は整数や文字列のような定数スカラー値である。関数本体は、これらの引数の値を調べて、どのデータを返すべきかを決定することができる。 PythonのUDTFを使うべき理由要するに、複数の行や列を生成する関数が必要で、Pythonの豊富なエコシステムを活用したいのであれば、Python UDTFが