メインコンテンツへジャンプ
<
ページ 11
>

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、 データウェアハウスの公式世界記録を更新 したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとして オンラインで公開 されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター(BSC)によるベンチマークテストの結果を共有し、Databricks SQL が競合...

データベースのベンチマーク情報を公開 ― 反競争的 DeWitt 条項を不要に

Databricks では、テクノロジーについて語るときにしばしば「the future is open」(未来はオープン)というフレーズを使用します。オープンなデータアーキテクチャがプロプライエタリなアーキテクチャを凌駕するという私たちの信念を表現したものです(Databricks は先日、 TPC-DS の公式記録を更新 しました)。「オープン」であるべきは、コードだけではありません。業界全体における経営手法や討論も含まれます。多くのテクノロジー企業が、契約の中に DeWitt 条項を入れることでベンチマーク情報の公開を禁じ、自社製品のパフォーマンスに関する情報を制御しようとしています。しかし、私たちは、このような慣行はお客様のためにならず、イノベーションの障壁となる、そろそろ廃止すべきだと考えています。そこで Databricks では、サービス規約から DeWitt 条項を削除し、業界の他の企業にも同様の行動を呼びかけています 。 DeWitt 条項とは Wikipedia には次のように記載されています

Databricks が DWH パフォーマンスの公式記録を更新

Databricks は本日、「 Databricks SQL 」がデータウェアハウス(DWH)のベンチマークである TPC-DS の 100TB クラスで世界記録を更新 したことを発表しました。 Databricks SQL は、これまでの世界記録の 2.2 倍のパフォーマンスを達成。 他の多くのベンチマーク達成ニュースとは異なり、この記録は TPC 評議会によって正式に認められています。 These results were corroborated by...

アシュリオン社、レイクハウスでビッグデータのための ETL 導入 – データマート設計など

September 16, 2021 Tomasz Magdanski による投稿 in
この記事は、アシュリオン(Asurion)社エンジニアリング部門シニアディレクター Tomasz Magdanski 氏による特別寄稿によるものです。 アシュリオン(Asurion)社では、デバイスの保険やインストール、修理、交換、24 時間 365 日のサポートの提供を通じて、お客様がセキュアに、かつ快適に最新テクノロジーを利用できるよう支援しています。1 万人のエキスパートで構成されるサポートチームが、世界中の約 3 億のお客様の日々のニーズに電話やオンライン、対面で対応しています。サポート内容は、スマートフォンの即日交換、快適なストリーミングや接続を可能にするための技術的な問題の解決など多岐に及びます。 アシュリオン社では、種類や購入元にかかわらず、テクノロジーに常にアクセスできる環境、テクノロジーを最大限に活用できる環境をお客様に提供できるよう努めています。 レイクハウスで大規模 ETL を導入した背景と課題 アシュリオン社のエンタープライズデータサービスチームでは、全組織から 3,500 以上のデータ資

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in
学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス(カナダ)や、東京(日本)、チューリッヒ(スイス)、杭州(中国)など世界中に存在し、オン/オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。 「Beacon」(灯台や標識塔)という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

Hadoop(ハドゥープ)からの移行に伴う潜在価値とは

February 18, 2021 Brian Dirking による投稿 in
Hadoop(ハドゥープ)とは、分散処理技術(分散処理基盤)とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS(Hadoop Distributed File System)が使用されていることが特徴です。長年にわたり、この Hadoop(ハドゥープ)はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO(総所有コスト)を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー 「The Hidden Value of Hadoop Migration」 (Hadoop からの移行に伴う潜在価値)を発

Disney+ 事例:Databricks と AWS で構築したストリーミングデータの分析プラットフォームで顧客エクスペリエンス向上

December 14, 2020 Hector Leano による投稿 in
ディズニープラス(Disney+)のソフトウェアエンジニアリングディレクターであるマーティン・ザプレタル(Martin Zapletal)氏が、AWS re:Invent 2020 に登壇し、同社におけるユビキタスな高速データを活用した顧客エクスペリエンスの改善への取り組みについて講演しました。 ディズニープラスでは、Databricks on AWS を基盤とするアーキテクチャによって、数百万のリアルタイムなストリーミングイベントの処理および分析を行っています。ザプレタル氏の講演では、そのアーキテクチャについて詳しく紹介されました。 セッション要旨: ディズニープラスでは、タイトルレコメンデーションの提供、マイクロサービスへのイベントの送信、オペレーション分析のためのログの作成などのリアルタイムなアクションの推進に Amazon Kinesis を活用し、顧客エクスペリエンスを向上させています。このセッションでは、ディズニープラスがいかにしてリアルタイムかつデータドリブンな能力を備えた統合ストリーミングプラット

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in
Databricks は以前の ブログ で、企業におけるレイクハウス(LH)採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」(Delta Lake:クラウドオブジェクトストアによる高性能ACIDテーブルストレージ)を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文は こちら からダウンロードできます。 「もし私が顧客に何が欲し

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in
Databricks における公共セクター(州・地方政府)部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。 暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な 新たな成果の報告 もあります。米国疾病予防管理センター(CDC)をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。 私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。 世界的

Apache Spark™ と R によるユーザー定義関数の最適化と実用化 —ミネソタ・ツインズにおける投球シナリオのスケーリング–Part 2

序章 Part 1 では 、ミネソタ・ツインズの BOG(Baseball Operations Group)が、選手の成績をより正確に評価するために、過去 1,500 万回の投球ごとに 2 万回、合計 3,000 億回のシミュレーションを実行する必要があったことをお話ししました。BOG のアイディアはシンプルです。 過去 1,500 万回の投球から選手の成績をイメージ化できれば、各選手の分布に従った 3,000 億球のシミュレーションデータからは、より鮮明なイメージと信頼性の高い評価が得られることが想定できます。 このデータは、より多くの勝利を生み出してクラブの収益を上げることを目的とするコーチや人事の決定に影響を与えます。 データを生成・記録するスクリプトと機械学習モデルは全て R...