Databricks ブログ | Databricks Blog

ページ 8

レイクハウスによるデータの民主化がアムジェンの医薬品開発・提供を加速

March 22, 2022 Jaison Dominic、Kerby Johnson による投稿 in 導入事例

この記事は、アムジェン（Amgen）社のプロダクトオーナー Jaison Dominic 氏と、ディスティングイッシュドソフトウェアエンジニア Kerby Johnson 氏によるゲスト執筆記事です。世界最大の独立系バイオテクノロジー企業であるアムジェンは、長い間、イノベーションの代名詞とされてきました。40 年にわたり、新しい医薬品製造プロセスを開拓し、命を救う医薬品を開発し、世界中の何百万人もの人々の生活にプラスの影響を及ぼしてきました。患者さんに最高のサービスを提供するという使命を果たし続けるために、私たちは最近、完全なデジタル変革という新たなイノベーションのジャーニーに乗り出しました。研究開発の生産性向上からサプライチェーンや商品化の最適化まで、ビジネス全体の成果を上げるためのデータ活用を再考する過程で、データチームが解決しようとしている問題の種類がここ数年で劇的に変化していることがすぐに明らかになりました。さらに、これらの問題は、もはやスキルセットや部門、機能によって隔離されているわけではありま

Databricks と同等の価格性能を持つという Snowflake の主張に対する反論

November 16, 2021 モスタファ・モフタール、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in Databricks ブログ

データブリックスでは、Databricks SQL のレイクハウスプラットフォームが、データウェアハウスの公式世界記録を更新したことを 2021 年 11 月 2 日にブログで発表しました。この結果は、Transaction Processing Performance Council (TPC) によって公式に監査、報告されており、tpc.org にて 37 ページのドキュメントとしてオンラインで公開されています。また、そのブログで、サードパーティのバルセロナ・スーパーコンピューティング・センター（BSC）によるベンチマークテストの結果を共有し、Databricks SQL が競合...

データベースのベンチマーク情報を公開 ― 反競争的 DeWitt 条項を不要に

November 8, 2021 Justin Olsson、Reynold Xin（レイノルド・シン）による投稿 in Databricks ブログ

Databricks では、テクノロジーについて語るときにしばしば「the future is open」（未来はオープン）というフレーズを使用します。オープンなデータアーキテクチャがプロプライエタリなアーキテクチャを凌駕するという私たちの信念を表現したものです（Databricks は先日、 TPC-DS の公式記録を更新しました）。「オープン」であるべきは、コードだけではありません。業界全体における経営手法や討論も含まれます。多くのテクノロジー企業が、契約の中に DeWitt 条項を入れることでベンチマーク情報の公開を禁じ、自社製品のパフォーマンスに関する情報を制御しようとしています。しかし、私たちは、このような慣行はお客様のためにならず、イノベーションの障壁となる、そろそろ廃止すべきだと考えています。そこで Databricks では、サービス規約から DeWitt 条項を削除し、業界の他の企業にも同様の行動を呼びかけています。 DeWitt 条項とは Wikipedia には次のように記載されています

Databricks が DWH パフォーマンスの公式記録を更新

November 2, 2021 Reynold Xin（レイノルド・シン）、モスタファ・モフタールによる投稿 in Databricks ブログ

Databricks は本日、「 Databricks SQL 」がデータウェアハウス（DWH）のベンチマークである TPC-DS の 100TB クラスで世界記録を更新したことを発表しました。 Databricks SQL は、これまでの世界記録の 2.2 倍のパフォーマンスを達成。他の多くのベンチマーク達成ニュースとは異なり、この記録は TPC 評議会によって正式に認められています。 These results were corroborated by...

アシュリオン社、レイクハウスでビッグデータのための ETL 導入 – データマート設計など

September 16, 2021 Tomasz Magdanski による投稿 in Databricks ブログ

この記事は、アシュリオン（Asurion）社エンジニアリング部門シニアディレクター Tomasz Magdanski 氏による特別寄稿によるものです。アシュリオン（Asurion）社では、デバイスの保険やインストール、修理、交換、24 時間 365 日のサポートの提供を通じて、お客様がセキュアに、かつ快適に最新テクノロジーを利用できるよう支援しています。1 万人のエキスパートで構成されるサポートチームが、世界中の約 3 億のお客様の日々のニーズに電話やオンライン、対面で対応しています。サポート内容は、スマートフォンの即日交換、快適なストリーミングや接続を可能にするための技術的な問題の解決など多岐に及びます。アシュリオン社では、種類や購入元にかかわらず、テクノロジーに常にアクセスできる環境、テクノロジーを最大限に活用できる環境をお客様に提供できるよう努めています。レイクハウスで大規模 ETL を導入した背景と課題アシュリオン社のエンタープライズデータサービスチームでは、全組織から 3,500 以上のデータ資

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in Databricks ブログ

学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス（カナダ）や、東京（日本）、チューリッヒ（スイス）、杭州（中国）など世界中に存在し、オン／オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。「Beacon」（灯台や標識塔）という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

Hadoop（ハドゥープ）からの移行に伴う潜在価値とは

February 18, 2021 Brian Dirking による投稿 in Databricks ブログ

Hadoop（ハドゥープ）とは、分散処理技術（分散処理基盤）とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS（Hadoop Distributed File System）が使用されていることが特徴です。長年にわたり、この Hadoop（ハドゥープ）はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO（総所有コスト）を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー「The Hidden Value of Hadoop Migration」（Hadoop からの移行に伴う潜在価値）を発

Disney+ 事例：Databricks と AWS で構築したストリーミングデータの分析プラットフォームで顧客エクスペリエンス向上

December 14, 2020 Hector Leano による投稿 in Databricks ブログ

ディズニープラス（Disney+）のソフトウェアエンジニアリングディレクターであるマーティン・ザプレタル（Martin Zapletal）氏が、AWS re:Invent 2020 に登壇し、同社におけるユビキタスな高速データを活用した顧客エクスペリエンスの改善への取り組みについて講演しました。ディズニープラスでは、Databricks on AWS を基盤とするアーキテクチャによって、数百万のリアルタイムなストリーミングイベントの処理および分析を行っています。ザプレタル氏の講演では、そのアーキテクチャについて詳しく紹介されました。セッション要旨：ディズニープラスでは、タイトルレコメンデーションの提供、マイクロサービスへのイベントの送信、オペレーション分析のためのログの作成などのリアルタイムなアクションの推進に Amazon Kinesis を活用し、顧客エクスペリエンスを向上させています。このセッションでは、ディズニープラスがいかにしてリアルタイムかつデータドリブンな能力を備えた統合ストリーミングプラット

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in Databricks ブログ

Databricks は以前のブログで、企業におけるレイクハウス（LH）採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」（Delta Lake：クラウドオブジェクトストアによる高性能ACIDテーブルストレージ）を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文はこちらからダウンロードできます。「もし私が顧客に何が欲し

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ

Databricks における公共セクター（州・地方政府）部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な新たな成果の報告もあります。米国疾病予防管理センター（CDC）をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。世界的