エンジニアリングのブログ

ページ 2

本番運用 - Databricksを使用した高品質の RAG アプリケーション

May 8, 2024 アキル・グプタ、オリバー・チウによる投稿 in データサイエンス・ML

12 月に、Databricks は Retrieval Augmented Generation (RAG) を使用して AI アプリケーションを本番運用するための新しいツールを発表しました。それ以来、 Databricks Data Intelligence Platform 上で何千もの顧客によって構築される RAG アプリケーションが爆発的に増加しています。本日、 DatabricksVector Searchの一般提供やモデルサービングのメジャーアップデートなど、...

データエンジニアのための Databricks Assistant のヒントとコツ

May 2, 2024 ジャッキー・チャン、ラフィー・カーランシック、リチャード・トムリンソンによる投稿 in 製品

生成AI革命はチームの働き方を変えつつあり、Databricks Assistantはこれらの進歩を最大限に活用しています。会話型インターフェイスを介してデータをクエリできるため、 Databricksワークスペース内での生産性が向上します。アシスタントは Databricks用のデータインテリジェンスエンジンであるDatabricksIQ を搭載しており、データのセキュリティを確保し、応答が正確で、企業の詳細に合わせて調整されていることを確認します。 Databricks Assistantを使用すると、タスクを自然言語で記述して、開発者のエクスペリエンスを中断することなく、複雑なコードを生成、最適化、またはデバッグできます。この投稿では、ブログ「 Databricks Assistantを最大限に活用するための5つのヒント」を拡張し、アシスタントが退屈な作業の排除、生産性と没入感の向上、価値実現までの時間の短縮によってデータエンジニアの生活をどのように改善できるかに焦点を当てます。さまざまなデータ

DatabricksIQ LLMの品質向上 - AIによるテーブル説明文の生成

April 29, 2024 スダルシャン・セシャドリ、マシュー・ヘイズ、リテンドラ・ダッタ、リチャード・トムリンソンによる投稿 in エンジニアリングのブログ

最近、 Unity CatalogのAI生成コメントをサポートする基礎となるアルゴリズムに大幅な改善を加えました。その結果を皆さんにお伝えできることを嬉しく思います。Databricks のデータインテリジェンスエンジンである DatabricksIQ を通じて、AIによって生成されたコメントは、顧客のUnity Catalogテーブルの新しいドキュメントの大部分をすでに生成しており、最近の機能強化は、この非常に人気のある機能をさらに強化します。このブログでは、トレーニングデータの合成に更新されたオープンソースLLMを使用する方法、トレーニングデータのクリーニングにヒューリスティックフィルターを使用する方法、ファインチューニング用に更新されたベースモデルを使用する方法、および自動ベンチマークで利用される拡張評価セットを使用する方法について説明します。最小限の労力で、これらの変更により、オフラインベンチマークで以前に導入されたモデルと比較して、優先率が 2倍に増加しました。さらに広い意味では、この取り

Databricks上のMeta Llama 3でエンタープライズ生成AIアプリを構築

April 18, 2024 アフメド・ビラル、ハゲイ・ルペスコによる投稿 in データサイエンス・ML

私たちはMeta社と共同で、最新の大規模言語モデル Meta Llama 3 を Databricks上でリリースできることを嬉しく思います。Databricks上のLlama 3により、あらゆる規模の企業が、完全に管理されたAPIを介してこの新しいモデルを導入することができます。Meta Llama 3は、オープン言語モデルの新しいスタンダードとなり、最先端のクローズドモデルに匹敵する機能を、コミュニティと独自のLLMを開発する企業の両方に提供します。Databricksでは、オープンな言語モデルを推進するというMetaのコミットメントに共感しており、この新しいモデルを初日から企業のお客様にご利用いただけることに興奮しています。 Meta Llama 3は、今後数日のうちにリージョンごとに展開される予定で、Databricksモデルサービング上の統一的なAPIを通じてアクセスすることができます。つまり、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して、高品質で本番規模の生成AIアプリ

Mosaic AIモデルサービングでDBRX推論を高速化

April 16, 2024 Mosaic AIエンジニアリングチームによる投稿 in データサイエンス・ML

イントロダクションこのブログポストでは、Databricksが作成したオープンな最新大規模言語モデル（LLM）であるDBRXを使った推論を紹介します（ DBRXの紹介を参照）。DBRXがどのように効率的な推論と高度なモデル品質の両方を実現するために一から設計されたかを説明し、私たちのプラットフォームでどのように最先端のパフォーマンスを達成したかを要約し、最後にモデルとの対話方法に関する実践的なヒントを紹介します。 Mosaic AIモデルサービングは、ハイパフォーマンスでプロダクショングレードのエンタープライズ対応プラットフォーム上のDBRX Instructに即座にアクセスすることができます。ユーザーは即座に実験やプロトタイプアプリケーションを構築し、その後スムーズに本番グレードの推論プラットフォームへ移行することができます。今すぐDBRXをお試しください！ Databricksワークスペース内の AI Playground （米国のみ） OpenAI SDKを使って Databricks上

Ray on Databricksの一般提供開始のお知らせ

April 16, 2024 スティーブン・オファー、ウェイチェン・シュー、ベン・ウィルソン、マヘーシュワラン・ヴェンカタチャラム、プニート・ジェイン、ニティン・ワグ、ハワード・ウーによる投稿 in エンジニアリングのブログ

昨年、Rayサポートのパブリックプレビューをリリースして以来、何百ものDatabricksのお客様が、マルチモデル階層予測やLLMファインチューニング、強化学習など、様々なユースケースに使用してきました。本日、DatabricksにおけるRayサポートの一般提供を発表できることを嬉しく思います。 Rayは、バージョン15.0以降、機械学習ランタイムの一部として含まれるようになり、Databricksでファーストクラスとして提供されるようになりました。お客様は、追加インストールなしで Rayクラスターを開始することができ、Databricksが提供する統合された製品群（Unity Catalog、Delta Lake、MLflow、Apache Sparkなど）の中で、この強力なフレームワークの使用を開始することができます。調和のとれた統合：Databricks上のRayとSpark Ray on Databricksの一般提供により、Databricks上で分散ML AIワークロードを実行する選択肢が

State Reader APIの発表：新しい "Statestore" データソース

March 28, 2024 クレイグ・ルカシック、イム・ジョンテクによる投稿 in エンジニアリングのブログ

Databricks Runtime 14.3には、構造化ストリーミングの内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマットとは一線を画しています。その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0（今年後半にリリース予定）には、State Reader APIが含まれます。新しいAPIはどのような課題に対応しているのか？ Apache Spark™...

2023年のPySpark：1年を振り返って

March 25, 2024 Hyukjin Kwon、上新卓也、アリソン・ワン、鄭瑞鳳、Xinrong Meng、イ・ヘジュン、アマンダ・リューによる投稿 in 業界

2023年にリリースされたApache Spark 3.4と3.5で、私たちはPySparkのパフォーマンス、柔軟性、使いやすさの改善に重点を置きました。このブログ記事では、主な改善点をご紹介します。 2023年にApache Spark 3.4と3.5で追加された最も重要な機能の概要です： Spark Connect は、任意のアプリケーションからSparkクラスタへのリモート接続を可能にする、クライアントとサーバーを分離したアーキテクチャを導入しています。これにより、サービスとしてのSparkは、安定性、アップグレード可能性、可観測性を高めながら実現されます。 Arrowに最適化されたPythonユーザー定義関数（UDF ）では、Arrowのカラムナーフォーマットを活用することで、通常のPython UDFの2倍のパフォーマンスを実現し、飛躍的な効率の向上を示しました。 Pythonのユーザー定義テーブル関数（UDTF）により、ユーザーはPySparkでネイティブにテーブルベースの変換を実行できるように

GGML GGUF ファイルフォーマットの脆弱性

March 22, 2024 ニール・アーチボルドによる投稿 in エンジニアリングのブログ

GGUFファイルフォーマットは、GGMLライブラリのモデル重みの保存と読み込みに使用されるバイナリファイルフォーマットです。ライブラリのドキュメントには、以下のような形式が記述されています： "GGUFは、GGMLによる推論のためのモデルや、GGMLに基づく実行形式を保存するためのファイルフォーマットです。 GGUFは、モデルの読み込みと保存を高速化し、読みやすくするために設計されたバイナリフォーマットです。モデルは伝統的にPyTorchや他のフレームワークを使用して開発され、GGMLで使用するためにGGUFに変換されます。" GGUF フォーマットは、学習済みの機械学習モデルを配布するために最近普及しており、低レベルのコンテキストからモデルを利用する際に、Llama-2で最も一般的に使用されるフォーマットの1つとなっています。 llama.cpp、pythonの llm モジュール、Huggingfaceのようなggufファイルをロードするときの ctransformers ライブラリなど、このローダーに

Azure Databricksによるデータ漏洩対策

March 21, 2024 ガネッシュ・ラジャゴパル、ブルース・ネルソン、バヴィン・クカディアによる投稿 in エンジニアリングのブログ

前回のブログでは、仮想ネットワークサービスエンドポイントまたは Private Link を使用して、Azure DatabricksからAzureデータサービスに安全にアクセスする方法について説明しました。この記事では、これらのベストプラクティスのベースラインを前提として、データの流出を防止するために、ネットワークセキュリティの観点からAzure Databricksのデプロイを強化する方法について、詳細な手順をウォークスルーします。 Wikipedia によるとデータ漏洩は、マルウェアや悪意のある行為者がコンピュータから不正なデータ転送を行うことで発生します。一般に、データ漏洩またはデータエクスポートとも呼ばれます。データ漏洩は、データ窃盗の一形態とも考えられています。2000年以降、多くのデータ漏洩が発生し、世界中の企業の消費者信頼、企業評価、知的財産、政府の国家安全保障に深刻な損害を与えました。この問題は、企業が機密データ（PII、PHI、戦略的機密情報）をパブリッククラウドサービスで保管・