プラットフォームブログ

ページ 6

DatabricksによるGenAIの構築とカスタマイズ：LLMとその先へ

January 22, 2024 アリ・カプラン、エミリー・ハトソン、ニコラス・ペラエスによる投稿 in プラットフォームブログ

ジェネレーティブAIは、ビジネスに新たな可能性をもたらし、組織全体で力強く受け入れられています。最近の MIT Tech Reviewのレポートによると、調査対象となった600人のCIO全員がAIへの投資を増やしており、71％が独自のカスタムLLMやその他のGenAIモデルの構築を計画していると回答しています。しかし、多くの組織では、自社のデータで学習させたモデルを効果的に開発するために必要なツールが不足している可能性があります。ジェネレーティブAIへの飛躍は、単にチャットボットを導入するだけではありません。この変革の中心は、データレイクハウスの出現です。このような高度なデータアーキテクチャは、GenAIの可能性を最大限に活用する上で不可欠であり、データとAI技術の迅速かつコスト効率の高い、より広範な民主化を可能にします。企業が競争上の優位性を確保するためにGenAIを活用したツールやアプリケーションへの依存度を高める中、基盤となるデータインフラは、これらの先進技術を効果的かつ安全にサポートでき

Databricks SQL Year in Review（Part1）：AIに最適化されたパフォーマンスとサーバーレス・コンピューティング

January 18, 2024 ジェレミー・ルヴァレン、ガウラヴ・サラフ、モスタファ・モフタール、ケビン・クルゲージ、ジョー・ハリスによる投稿 in プラットフォームブログ

本記事は、2023年の Databricks SQLの主な進歩分野を振り返るブログ・シリーズのパート1で、最初の記事ではパフォーマンスに焦点を当てています。データウェアハウスのパフォーマンスは、特に計算時間がコストを左右する現代のSaaSの世界では、より応答性の高いユーザーエクスペリエンスと優れた価格/パフォーマンスを実現するために重要です。私たちは、Databricks SQLのパフォーマンスを向上させるとともに、AIを活用することで手作業によるチューニングの必要性を低減させるために努力してきました。 AIに最適化されたパフォーマンス最新のデータウェアハウスは、新しいデータ、より多くのユーザー、または新しいユースケースが入ってくるたびに、知識豊富な管理者が継続的に手動で調整する必要があるワークロード固有の構成で満たされています。これらの"ノブ" は、データの物理的な保存方法から、コンピュータの利用方法やスケーリング方法まで多岐にわたります。この1年間、私たちはDatabricksのデータインテリ

小売業のためのジェネレーティブAI：スキル開発を通じてトップラインの成長を促進

January 18, 2024 レベッカ・ブクニスによる投稿 in プラットフォームブログ

COVID以来、"大辞任" について、世界経済フォーラムによる詳細な分析を含め、数え切れないほどの記事が書かれています。この調査でわかった重要なことのひとつは、自発的に仕事を辞める人をこれ以上増やさないためには、企業は従業員を職場に引き込む努力をしなければならないということです。結局のところ、従業員はどの企業にとっても最も貴重な資産であり、従業員が退職すると、同僚や企業全体に打撃を与えます。しかし、従業員のエンゲージメントを調査するとなると、中核となるリソースとしてデータに頼る企業はほとんどありません。この5年間で、アナリティクスや機械学習を利用して、顧客やサプライチェーンに関するより深く広範な洞察を得る経営者は増えましたが、従業員に関するデータはまだ不足していることが多いのです。その代わりに、人事担当者は採用やコーチング、育成に重点を置く傾向があり、意思決定のためにデータの代わりに"直感" を使う必要があります。ビジネス界で最も秘匿されている秘密の1つは、人的資本データを解き放つことが成長とコス

SIEM検知ルールの進化：シンプルから洗練への旅

January 16, 2024 デビッド・ウェルズによる投稿 in プラットフォームブログ

サイバー脅威とそれに対抗するツールはより洗練されたものになっています。 SIEMは20年以上の歴史があり、その間に大きく進化してきました。当初はパターンマッチングと閾値ベースのルールに依存していたSIEMは、より高度なサイバー脅威に対処するために分析能力を向上させました。「検知成熟度曲線」と呼ばれるこの進化は、セキュリティ運用が単純な警告システムから脅威の予測分析が可能な高度なメカニズムへと移行したことを示しています。このような進歩にもかかわらず、最新のSIEMは、大規模なデータセットや長期的な傾向分析、機械学習による検出のためのスケーリングという課題に直面しており、複雑化する脅威要因の検出と対応に対する組織の能力が問われています。そこでDatabricksがサイバーセキュリティチームを支援します。 Apache Spark™、MLflow、およびDeltaテーブルを搭載したDatabricksの統合アナリティクスは、企業の最新のビッグデータと機械学習のニーズを満たすために、コスト効率よく拡張できます。

Databricks アシスタントを最大限に活用するための5つのヒント

January 8, 2024 ランダン・ジョージ、ウェストン・ハッチンスによる投稿 in プラットフォームブログ

Databricks アシスタントは、Databricksノートブック、SQLエディタ、ファイルエディタで利用可能な、コンテキストを意識したAIアシスタントで、Databricksの生産性を向上させます： SQL／Pythonコードの生成オートコンプリートコードまたはクエリコードの変換と最適化コードやクエリの説明エラーの修正とコードのデバッグアクセス可能なテーブルとデータの発見 Databricks アシスタントのドキュメントには、これらのタスクに関する高レベルの情報と詳細が記載されていますが、コード生成のためのジェネレーティブAIは比較的新しいものであり、これらのアプリケーションを最大限に活用する方法はまだ学習中です。このブログ記事では、Databricks アシスタントを最大限に活用するための5つのヒントとトリックについて説明します。 Databricks アシスタントのための5つのヒント 1. より良い応答を得るためにFind Tablesアクションを使用する Databricks アシスタン

Delta Sharingによるグローバル・データ・コラボレーションの構築

January 5, 2024 Matei Zaharia、ビラル・オベイダット（Bilal Obeidat）、黄天一、ジゼル・ゴイコチェアによる投稿 in プラットフォームブログ

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

『Databricks Assistant for Help 』のご紹介

December 27, 2023 ジャスティン・キム、シャオレイ・シー、Rhetta Nadas、リチャード・トムリンソンによる投稿 in プラットフォームブログ

Databricks Assistant は、Databricks Notebooks、SQLエディタ、およびファイルエディタに統合されたコンテキストを認識するAIアシスタントであり、 UnityカタログでAIが生成したドキュメントを提供します。 Databricks Assistant for Helpは、AIを使って学習、探索、検索、トラブルシューティング、サポートを受けるための新しい方法です。ユーザーはAIを活用してDatabricksのドキュメントを検索し、機能やエラーに関する質問に答えることができます。また、追加のサポートが必要な場合、サポートチームとの連絡をサポートすることもできます。Databricks Assistant for Helpはどのページからもアクセス可能で、ユーザー名の隣にあるトップナビゲーションバーにあります。質問をしてみましょうアシスタントに質問することで、製品について学んだり、Databricksでチューニングされた知識でサポートを受けることができます。これらの質問の構成

Mixtral 8x7B と Databricks モデルサーヴィングのご紹介

December 21, 2023 アフメド・ビラル、ダヤ・クディア、Ankit Mathur、アスファンダイヤル・クレシ、ブルース・フォンテーヌ、リンデン・リー、サンディープ・クリシュナムルシー、ジョシュ・ハートマン、ハゲイ・ルペスコによる投稿 in エンジニアリングのブログ

reviewed by saki.kitaoka 本日、Databricksはモデルサーヴィングで Mixtral 8x7Bをサポートすることを発表します。Mixtral 8x7BはスパースなMixture of Experts（MoE）オープン言語モデルで、多くの最先端モデルを凌駕するか、あるいはそれに匹敵します。最大32kトークン（約50ページのテキスト）の長いコンテキストを処理する能力を持ち、そのMoEアーキテクチャはより高速な推論を提供するため、RAG（Retrieval-Augmented Generation）やその他の企業ユースケースに理想的です。 Databricks Model Servingは、プロダクショングレードのエンタープライズ対応プラットフォーム上で、オンデマンド価格でMixtral 8x7Bへの即時アクセスを提供します。毎秒数千のクエリをサポートし、シームレスなベクターストア統合、自動化された品質モニタリング、統合ガバナンス、アップタイムのSLAを提供します。このエ

Databricksは、2023年ガートナー®マジッククアドラント™クラウドデータベース管理システムのリーダーに選ばれました。

December 21, 2023 エリカ・エールリ、Sonya Vargas、デイビッド・ホワイトハウスによる投稿 in Databricks ブログ

私たちは、GartnerがDatabricksを2023年のGartner® Magic Quadrant™ for Cloud Database Management Systemsで3年連続のリーダーと認識したことを発表することを嬉しく思います。今年、Gartnerは19のベンダーを評価し、私たちはAmazon Web Services、Google Cloud PlatformでのDatabricks Data Intelligence Platform、そしてMicrosoftのAzure Databricksとしての第一パーティ製品として認識されることを光栄に思います。レポートの無料コピーをここからダウンロードしてください。 Databricksでは、お客様へのこだわりが引き続き私たちの革新と製品ロードマップを推進しており、データインテリジェンスプラットフォームを急速に拡大して、真にData +...

Unity Catalogがもたらす価値は何か？

December 20, 2023 アリ・カプラン、パール鵜原による投稿 in プラットフォームブログ

Reviewed by saki.kitaoka ガバナンスは、データとAI製品が正確なガイドラインと標準に従って一貫して開発され、維持されることを保証します。アーキテクトのための設計図であり、一貫性、ガイドライン、標準によってソリューションとデータビジョンに命を吹き込みます。反復可能なワークフロー管理により、データエンジニアのためのスケールとスピードを実現します。データサイエンティストのためのAIモデルを共同で構築し、運用することで、スケールの大きな運用を可能にします。データ資産を広く共有し、すべての人に利益をもたらすと同時に、必要なときには非公開にする、データ管理者のためのセキュリティです。データとAI資産に基づくビジネス洞察の透明性を備えた、経営幹部にとっての信頼です。また、 Databricks Unity Catalogを使用することで、業務効率を高めることができます。このブログでは、企業がユニファイド・ガバナンス・ソリューションを標準化する前に直面する多くの課題の概要を説明し、テクノロ