メインコンテンツへジャンプ
ページ 1
>
Engineering blog

Databricks上のMeta Llama 3でエンタープライズ生成AIアプリを構築

私たちはMeta社と共同で、最新の大規模言語モデル Meta Llama 3 を Databricks上でリリースできることを嬉しく思います。Databricks上のLlama 3により、あらゆる規模の企業が、完全に管理されたAPIを介してこの新しいモデルを導入することができます。Meta Llama 3は、オープン言語モデルの新しいスタンダードとなり、最先端のクローズドモデルに匹敵する機能を、コミュニティと独自のLLMを開発する企業の両方に提供します。Databricksでは、オープンな言語モデルを推進するというMetaのコミットメントに共感しており、この新しいモデルを初日から企業のお客様にご利用いただけることに興奮しています。 Meta Llama 3は、今後数日のうちにリージョンごとに展開される予定で、Databricksモデルサービング上の統一的なAPIを通じてアクセスすることができます。 つまり、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して、高品質で本番規模の生成AIアプリ
Platform blog

次世代のLakeviewダッシュボードの一般提供を発表

Lakeviewダッシュボードとして知られる次世代の Databricks SQL (DBSQL)ダッシュボードについて、AWSとAzureで一般提供を開始しました。 この新しいダッシュボード体験は、使いやすさやスケーラブルで安全な配布、ガバナンス、パフォーマンスのために最適化されています。 「Lakeviewダッシュボードは、私たちのチームが市場に送り出した最新の製品群に欠かせないものです。 最終版の開発に投資する前に、データ中心製品の新バージョンを素早く試作し、実際に顧客や見込み客に見せるためにLakeviewを使用しました」 - Chase Cabanillas氏、最高技術責任者、Whip Media AWSおよびAzureでは、「DBSQLダッシュボード」のラベルが「レガシー ダッシュボード」に変更され、「レイクビュー ダッシュボード」のラベルが単に「ダッシュボード」に変更され、現在はデフォルトの一般提供エクスペリエンスになっています。 GCPのプライベート・プレビューは近日公開予定です。 Databri
Engineering blog

Mosaic AIモデルサービングでDBRX推論を高速化

イントロダクション このブログポストでは、Databricksが作成したオープンな最新大規模言語モデル(LLM)であるDBRXを使った推論を紹介します( DBRXの紹介 を 参照 )。DBRXがどのように効率的な推論と高度なモデル品質の両方を実現するために一から設計されたかを説明し、私たちのプラットフォームでどのように最先端のパフォーマンスを達成したかを要約し、最後にモデルとの対話方法に関する実践的なヒントを紹介します。 Mosaic AIモデルサービング は 、 ハイパフォーマンスでプロダクショングレードのエンタープライズ対応プラットフォーム上のDBRX Instructに即座にアクセスする ことができます。 ユーザーは即座に実験やプロトタイプアプリケーションを構築し、その後スムーズに本番グレードの推論プラットフォームへ移行することができます。 今すぐDBRXをお試しください! Databricksワークスペース内の AI Playground (米国のみ) OpenAI SDKを使って Databricks上
Engineering blog

Ray on Databricksの一般提供開始のお知らせ

昨年、Rayサポートの パブリックプレビュー をリリースして以来、何百ものDatabricksのお客様が、マルチモデル階層予測やLLMファインチューニング、強化学習など、様々なユースケースに使用してきました 。 本日、DatabricksにおけるRayサポートの一般提供を発表できることを嬉しく思います。 Rayは、バージョン15.0以降、機械学習ランタイムの一部として含まれるようになり、Databricksでファーストクラスとして提供されるようになりました。 お客様は、追加インストールなしで Rayクラスターを開始することができ、Databricksが提供する統合された製品群(Unity Catalog、Delta Lake、MLflow、Apache Sparkなど)の中で、この強力なフレームワークの使用を開始することができます。 調和のとれた統合:Databricks上のRayとSpark Ray on Databricksの一般提供により、Databricks上で分散ML AIワークロードを実行する選択肢が
Engineering blog

State Reader APIの発表:新しい "Statestore" データソース

Databricks Runtime 14.3には、 構造化ストリーミング の内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマット とは一線を画しています。 その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0(今年後半にリリース予定)には、State Reader APIが含まれます。 新しいAPIはどのような課題に対応しているのか? Apache Spark™...
Industries category icon 1

2023年のPySpark:1年を振り返って

2023年にリリースされたApache Spark 3.4と3.5で、私たちはPySparkのパフォーマンス、柔軟性、使いやすさの改善に重点を置きました。 このブログ記事では、主な改善点をご紹介します。 2023年にApache Spark 3.4と3.5で追加された最も重要な機能の概要です: Spark Connect は、任意のアプリケーションからSparkクラスタへのリモート接続を可能にする、クライアントとサーバーを分離したアーキテクチャを導入しています。 これにより、サービスとしてのSparkは、安定性、アップグレード可能性、可観測性を高めながら実現されます。 Arrowに最適化されたPythonユーザー定義関数(UDF )では、Arrowのカラムナーフォーマットを活用することで、通常のPython UDFの2倍のパフォーマンスを実現し、飛躍的な効率の向上を示しました。 Pythonのユーザー定義テーブル関数(UDTF) により、ユーザーはPySparkでネイティブにテーブルベースの変換を実行できるように
Engineering blog

GGML GGUF ファイルフォーマットの脆弱性

GGUFファイルフォーマット は、GGMLライブラリのモデル重みの保存と読み込みに使用されるバイナリファイルフォーマットです。 ライブラリのドキュメントには、以下のような形式が記述されています: "GGUFは、GGMLによる推論のためのモデルや、GGMLに基づく実行形式を保存するためのファイルフォーマットです。 GGUFは、モデルの読み込みと保存を高速化し、読みやすくするために設計されたバイナリフォーマットです。 モデルは伝統的にPyTorchや他のフレームワークを使用して開発され、GGMLで使用するためにGGUFに変換されます。" GGUF フォーマットは、学習済みの機械学習モデルを配布するために最近普及しており、低レベルのコンテキストからモデルを利用する際に、Llama-2で最も一般的に使用されるフォーマットの1つとなっています。 llama.cpp、pythonの llm モジュール、Huggingfaceのようなggufファイルをロードするときの ctransformers ライブラリなど、このローダーに
Engineering blog

Azure Databricksによるデータ漏洩対策

前回のブログ では、 仮想ネットワークサービスエンドポイント または Private Link を使用して、Azure DatabricksからAzureデータサービスに安全にアクセスする方法について説明しました。 この記事では、これらのベストプラクティスのベースラインを前提として、データの流出を防止するために、ネットワークセキュリティの観点からAzure Databricksのデプロイを強化する方法について、詳細な手順をウォークスルーします。 Wikipedia によると データ漏洩は、マルウェアや悪意のある行為者がコンピュータから不正なデータ転送を行うことで発生します。一般に、データ漏洩またはデータエクスポートとも呼ばれます。データ漏洩は、データ窃盗の一形態とも考えられています。2000年以降、多くのデータ漏洩が発生し、世界中の企業の消費者信頼、企業評価、知的財産、政府の国家安全保障に深刻な損害を 与えました。 この問題は、企業が機密データ(PII、PHI、戦略的機密情報)をパブリッククラウドサービスで保管・
Engineering blog

Databricksでの安全かつ責任ある生成AIデプロイのためのLLMガードレールの実装

イントロダクション よくあるシナリオを考えてみましょう。あなたのチームは、オープンソースのLLMを活用して、カスタマーサポート用のチャットボットを構築したいと考えています。 このモデルは、本番環境で顧客からの問い合わせを処理するため、いくつかの入力や出力が不適切または安全でない可能性があることに気づかない可能性があります。 そして、内部監査の最中になって初めて(運良く このデータを追跡 していた場合)、ユーザーが不適切なリクエストを送信し、チャットボットがそのユーザーとやりとりしていることに気づくのです! さらに深く掘り下げると、チャットボットが顧客を不快にさせている可能性があり、事態の深刻さはあなたが準備できる範囲を超えていることがわかります。 チームが本番環境でAIイニシアチブを保護するために、DatabricksはLLMをラップして適切な動作を強制するガードレールをサポートしています。 ガードレールに加えて、Databricksはモデルのリクエストとレスポンスをログに記録する推論テーブル( AWS | Az
Engineering blog

Databricks Feature Serving(特徴量サービング)の一般提供開始のお知らせ

本日、Databricks Feature Serving(特徴量サービング)の一般提供を開始いたします。 特徴量はAIアプリケーションにおいて極めて重要な役割を果たし、通常、正確に計算し、低レイテンシーでアクセスできるようにするためにはかなりの労力を必要とします。 この複雑さによって、本番のアプリケーションの品質を向上させるための新機能の導入が難しくなります。 特徴量サービングを利用すれば、AIアプリケーションに対して、単一のREST APIを使用してリアルタイムで、事前に計算された特徴量やオンデマンドの特徴量を簡単に提供することができます! 特徴量サービングは、高速で安全、かつ簡単に使用できるように設計されており、次のような利点があります: 高速かつ低TCO - 特徴量サービングは、低TCOで高いパフォーマンスを提供するように設計されており、ミリ秒単位の待ち時間で特徴量を提供できます。 フィーチャーチェーン - 事前に計算された特徴量とオンデマンド計算のチェーンを指定することで、複雑なリアルタイム特徴量の計算