メインコンテンツへジャンプ
ページ 1

ProdvanaチームがDatabricksにジョイン:次世代インフラの進化に向けた新たな一歩

Prodvana チームを Databricks に迎えることができて大変嬉しく思います。 Databricks では、データと AI ワークロードのかつてない増加をサポートするために、世界最大級のマルチクラウド プラットフォームを構築しています。 このプラットフォームは、3 つの主要なクラウド プラットフォーム全体で毎日 2,000 万台を超える仮想マシンを起動します。 これにより、お客様はインフラストラクチャの詳細を気にすることなく、エンタープライズ グレードの拡張性、信頼性、一貫性を備えたデータとAIワークロードを実行できるようになります。 このプラットフォームを支えるインフラは、当社のコアコンピタンスの1つです。 Prodvana は、マネージドデリバリーやインフラストラクチャの洞察、自己修復機能を通じて、クラウドネイティブ環境でのデプロイの複雑さを簡素化する革新的な方法を開発しました。 Databricksでは、同社の専門知識を活用してあらゆる種類のインフラストラクチャの改善を実現し、セキュリティを犠牲

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン

AI/BIの発表:リアルデータに基づくインテリジェント解析の時代へ!

Translation Review by saki.kitaoka 本日、私たちは Databricks AI/BI の発表を大変楽しみにしています。これは、データの意味を深く理解し、誰でもデータを自ら分析できるように設計された新しいビジネスインテリジェンス製品です。AI/BIは、ETLパイプライン、系統、その他のクエリなど、Databricksプラットフォーム全体のデータのライフサイクルからインサイトを引き出す 複合AIシステム に基づいて構築されています。このAI/BIは、次の2つの補完的な製品体験を提供します。 AI/BIダッシュボード: AI駆動のローコードダッシュボードソリューションで、従来のBI機能をすべて備えており、固定されたビジネス質問に答えるために設計されています。 Genie: 人間のフィードバックに基づいてデータとその意味を継続的に学習し、より広範なビジネス質問に答えることができる会話型インターフェースです。データチームによって指定されたクエリパターンについては、確認済みの回答も提供します

Databricks + Tabular

私たちは、データマネジメント会社であるTabular, Incを買収することに合意したことを発表できることを非常に嬉しく思います。この会社はRyan Blue、Daniel Weeks、Jason Reidによって設立されました。この買収により、Apache Iceberg™のオリジナルの作成者と、Linux Foundation Delta Lakeの作成者たちが一堂に会することになります。これにより、データの形式に縛られることなくデータ互換性を実現するための道が開かれます。本ブログでは、短期的にはDelta Lake UniForm内で、長期的には単一でオープンかつ共通の相互運用性の標準へと進化させることを目指し、IcebergおよびDelta Lakeコミュニティと緊密に連携してフォーマット互換性を実現する方法について説明します。取引が完了次第、このチームを迎えることを楽しみにしており、オープンレイクハウスのビジョンに向けて共同で取り組むことに興奮しています。 レイクハウスアーキテクチャの台頭とフォーマット

Unity Catalog Lakeguard:業界初、マルチユーザーのApache Sparkクラスター向けのデータガバナンス

Unity Catalog Lakeguardを発表できることを嬉しく思います。これにより、Databricksデータインテリジェンスプラットフォームのコスト効率の高いマルチユーザーコンピューティング上で完全なデータガバナンスを備えたSQL、Python、ScalaでApache Spark™ ワークロードを実行できるようになります。 従来、ガバナンスを強化するにはシングルユーザークラスターを使用する必要があり、コストと運用のオーバーヘッドを負担する必要がありました。 Lakeguardを使用すると 、ユーザーコードは他のユーザーのコードや共有コンピュート上のSparkエンジンから完全に分離された状態で実行されるため 、実行時に データガバナンス を強制する ことができます。 これにより、クラスターをチーム全体で安全に共有し、計算コストを削減し、運用の手間を最小限に抑えることができます。 Lakeguardは、 Unity Catalog の導入以来、不可欠な存在となっています。DBR 13.1ではPython

AI生成ドキュメンテーションのためにオーダーメイドLLMを作成する

これは、大規模言語モデル(LLM)を使用して、Unityカタログのテーブルとカラムのドキュメントを自動的に生成するものです 。 私たちは、この機能がお客様から好評をいただいていることに身の引き締まる思いです。 現在、 Databricksのテーブルメタデータ更新の80%以上がAI支援による ものです。 このブログポストでは、既製のSaaSベースのLLMを使用したハッカソンプロトタイピングから、より良く、より速く、より安いオーダーメイドのLLMの作成まで、この機能を開発した私たちの経験を紹介します。 この新しいモデルの開発には、2人のエンジニア、1ヶ月、1,000ドル未満の計算コストしかかかりませんでした(!) 私たちは、これらの学習がGenAIの幅広いユースケースに当てはまると考えているので、参考にしていただければ幸いです。 さらに重要なのは、オープンソースLLMの急速な進歩を利用できるようになったことです。 AIが作成した文書とは? 各データ・プラットフォームの中心には、データセット(多くの場合テーブル形式)の

データ・インテリジェンス・プラットフォーム

「 ソフトウェアが世界を食べている 」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになる と考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。 その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。 これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー

Databricks + Arcion: Lakehouseへのリアルタイムエンタープライズデータレプリケーション

我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了 したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの 投資先企業としても、長年にわたって緊密に協力してきました。 この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。 リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI

Lakeviewダッシュボードがパブリックプレビューになりました!

翻訳:Saki Kitaoka. - Original Blog Link Databricksの次世代SQLダッシュボード「 Lakeview dashboards 」のパブリックプレビューを発表できることを嬉しく思います。本日より利用可能なこの新しいダッシュボードエクスペリエンスは、使いやすさ、幅広い配布、ガバナンス、セキュリティのために最適化されています。 Lakeview は、旧世代のダッシュボードと比較して、4 つの主要な改善点を提供します: ビジュアライゼーションの改善 : 新しいビジュアライゼーション・エンジンにより、美しくインタラクティブなチャートが最大10倍高速に描画されます。 共有と配布の最適化 : ドラフト/パブリッシュ機能により、ダッシュボードを自由に編集することができます。Databricks ワークスペースに直接アクセスできない組織内のコンシューマーとも安全に共有できます。 シンプルなデザイン : WYSIWYG...

Apache Spark™ 3.5のご紹介

翻訳:Junichi Maruyama. - Original Blog Link 本日、Databricks Runtime 14.0の一部として、Databricks上でApache Spark™ 3.5が利用可能になったことを発表いたします。Spark 3.5のリリースに多大な貢献をしていただいたApache Sparkコミュニティに深く感謝いたします。 Sparkをこれまで以上にアクセスしやすく、多用途で効率的なものにするという我々のミッションに沿った今回のアップデートには、以下のような新機能と改良が盛り込まれています: The English SDK for Apache Spark enables users to...

Databricks + MosaicML

翻訳:Junichi Maruyama. - Original Blog Link 本日、私たちはMosaicMLの買収を完了したことをお伝えできることを嬉しく思います。MosaicMLは、企業向けにジェネレーティブAIモデルを作成し、カスタマイズするための先進的なプラットフォームです。Databricksの創業以来、私たちのミッションは、あらゆる企業のためにデータとAIを民主化することでした。MosaicMLと共に、ジェネレーティブAIアプリケーションのトレーニング、カスタマイズ、デプロイのためのクラス最高のエクスペリエンスを提供する予定です。 私たちはMosaicMLチームと協力し、ジェネレーティブAIを企業の主流にするために必要な3つの最も重要な開発を加速させます: モデル能力の迅速な民主化: 私たちは、すべての企業がモデルを広く利用できる未来を確信しています。あらゆるテクノロジーの民主化には、価格の引き下げとアクセスの向上が必要です。MosaicMLチームは、大規模な言語モデルのトレーニングとカスタマイズ

Project Lightspeed Update - Apache Spark Structured Streamingの高度化に向けて

翻訳:Saki Kitaoka. - Original Blog Link このブログポストでは、1年前にProject Lightspeedを発表してからの Spark Structured Streaming の進歩について、パフォーマンスの向上からエコシステムの拡張、そしてそれ以降についてレビューします。具体的なイノベーションについて説明する前に、そもそも私たちが Project Lightspeed の必要性に至った背景を少しおさらいしましょう。 本記事の背景 ストリーム処理は、インスタントな洞察とリアルタイムのフィードバックを得るために、企業にとって重要なニーズです。Apache Spark Structured Streamingは、その使いやすさ、パフォーマンス、大規模なエコシステム、開発者コミュニティにより、長年にわたって最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織全体に広く採用されており、 Delta Live Tables...

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

翻訳:Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

Apache Sparkのための新しいプログラミング言語としての「英語」

翻訳: Masahiko Kitamura オリジナル記事: Introducing English as the New Programming Language for Apache Spark はじめに 私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します! 動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

Welcome Rubicon to Databricks: これからのAIストレージとサービングシステムにむけて

Original: Welcome Rubicon to Databricks: The Future of AI Storage and Serving Systems 翻訳: saki.kitaoka RubiconのチームがDatabricksに参加することを発表でき、大変嬉しく思っています。大規模インフラ構築者であるAkhil GuptaとSergei Tsarevによって設立されたRubiconは、AIのためのストレージシステムの構築に取り組むスタートアップです。 私たちは10年以上前に、データとAIアプリケーションの構築を劇的に容易にすることを目標に、Databricksを会社としてスタートしました。私たちはすぐに、AIアプリケーションに必要なデータを処理するには、企業のデータウェアハウスなどの従来のストレージシステムでは不十分であることに気づきました。そこで、データウェアハウスとデータレイクストレージの長所を組み合わせたレイクハウスのコアストレージ基盤であるDelta Lakeを構築しました。 LL

ようこそOkera: AIを中心としたアプローチでガバナンスを実現する

Original: Welcome Okera: Adopting an AI-centric approach to governance 翻訳: junichi.maruyama Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近の Dolly 2.0 の導入以来、すべてのお客様が、AIと大規模言語モデル(LLM)の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。 そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その

Spark Connect がApache Spark 3.4で利用可能になりました

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳: junichi.maruyama 昨年、Data and AI SummitでSpark Connectが 紹介 されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0   (翻訳: junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

Original Post: Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM 翻訳: Takaaki Yayoi 2週間前、ChatGPTのような人間のインタラクティブ性(指示追従性)を示すように、$30以下でトレーニングされた大規模言語モデル(LLM)である Dolly をリリースしました。本日、 研究と商用利用 にライセンスされた、人の手で生成された指示データセットでファインチューンされた、史上初のオープンソース、指示追従LLMである Dolly 2.0 をリリースします。...

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、 データウェアハウスの公式世界記録を更新 したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとして オンラインで公開 されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター(BSC)によるベンチマークテストの結果を共有し、Databricks SQL が競合...

データベースのベンチマーク情報を公開 ― 反競争的 DeWitt 条項を不要に

Databricks では、テクノロジーについて語るときにしばしば「the future is open」(未来はオープン)というフレーズを使用します。オープンなデータアーキテクチャがプロプライエタリなアーキテクチャを凌駕するという私たちの信念を表現したものです(Databricks は先日、 TPC-DS の公式記録を更新 しました)。「オープン」であるべきは、コードだけではありません。業界全体における経営手法や討論も含まれます。多くのテクノロジー企業が、契約の中に DeWitt 条項を入れることでベンチマーク情報の公開を禁じ、自社製品のパフォーマンスに関する情報を制御しようとしています。しかし、私たちは、このような慣行はお客様のためにならず、イノベーションの障壁となる、そろそろ廃止すべきだと考えています。そこで Databricks では、サービス規約から DeWitt 条項を削除し、業界の他の企業にも同様の行動を呼びかけています 。 DeWitt 条項とは Wikipedia には次のように記載されています

Databricks が DWH パフォーマンスの公式記録を更新

Databricks は本日、「 Databricks SQL 」がデータウェアハウス(DWH)のベンチマークである TPC-DS の 100TB クラスで世界記録を更新 したことを発表しました。 Databricks SQL は、これまでの世界記録の 2.2 倍のパフォーマンスを達成。 他の多くのベンチマーク達成ニュースとは異なり、この記録は TPC 評議会によって正式に認められています。 These results were corroborated by...

Apache Spark™ 3.2 の概要

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。 月間のダウンロード数は 2,000万 に達し、対前年比では 2 倍の成長率を示しています。Spark...

Databricks SQL の最新イテレーション、新たな性能、速度改善

Data+AI サミット 2020 Europe で 発表 した Databricks SQL は、マルチクラウドの レイクハウス アーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...

データレイクハウスに関する FAQ

FAQ (よくある質問) データレイクハウスとは? データレイクとは? データウェアハウスとは? データレイクハウスとデータウェアハウスの違いは何ですか? データレイクハウスとデータレイクの違いは何ですか? データアナリストは容易にデータレイクハウスを利用できますか? データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。 データレイクハウスはどのようなデータガバナンス機能をサポートしていますか? データレイクハウスは一元化する必要がありますか?それともデータメッシュに分散できますか? データメッシュとデータレイクハウスとの関係は? データレイクハウスとは? データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能(AI)やビジネスインテリジェンス(BI)を直接実行できるアーキテクチャです。 現在、企業ではデータの大部分をデータレイクに格納しています。 データレイク は、あらゆる種類のデータ(構造化、非構造化を問わない)を管理し、どんな処理ツールでも実行

BI ツールの広帯域接続を実現するには

Tableau や Microsoft Power BI などのビジネスインテリジェンス(BI)ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

データレイクとデータウェアハウスとは?それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「 データレイクハウス 」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス(DWH: Data Warehouse)、データレイク(Data Lake)それぞれと比較して優れている点について解説します。 データウェアハウス(DWH)とは データウェアハウス(DWH)とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており、これには 長い歴史 があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ(あらかじ