メインコンテンツへジャンプ
<
ページ 66
>

Hadoop(ハドゥープ)からの移行に伴う潜在価値とは

February 18, 2021 Brian Dirking による投稿 in
Hadoop(ハドゥープ)とは、分散処理技術(分散処理基盤)とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS(Hadoop Distributed File System)が使用されていることが特徴です。長年にわたり、この Hadoop(ハドゥープ)はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO(総所有コスト)を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー 「The Hidden Value of Hadoop Migration」 (Hadoop からの移行に伴う潜在価値)を発

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in
このブログは、CIDR レポート 「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」 (レイクハウス:データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム)の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。 データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ(データレイクとデータウェアハウス)の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

分散型 ML の生産性を高める Ray と MLflow の統合

This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post...

データブリックスとアクセンチュアの連携で大規模な機械学習の運用を効率化

February 1, 2021 Jim GreggAtish Ray による投稿 in
データブリックスはこのたび、アクセンチュアとのパートナーシップを発表しました。このパートナーシップを通じて世界中のエンタープライズ企業に、私たちのサービスと再利用可能なコンポーネントを提供できることが期待されています。また、データ戦略、データ設計、データプラットフォームの最新化、および AI を専門とするアクセンチュアのデータ・AI 部門は、データブリックスの統合データ分析プラットフォームを活用し、これまでに実証された手法を、機械学習の大規模な運用に向けて最適化できます。アクセンチュアとデータブリックスは共に、エンタープライズにおけるデータのサイロ化の解消、アジャイルで適応性の高いプロセスの構築、データドリブンな意思決定による問題解決、新たな機会創出を可能にします。 アクセンチュアとデータブリックスのグローバルなパートナーシップは、両社が以前から共同でソリューションアクセラレータおよびソリューションを開発してきた実績に基づいています。私たちはさまざまな業界のお客様にこれらを提供し、機会創出を支援してきました。また

Disney+ 事例:Databricks と AWS で構築したストリーミングデータの分析プラットフォームで顧客エクスペリエンス向上

December 14, 2020 Hector Leano による投稿 in
ディズニープラス(Disney+)のソフトウェアエンジニアリングディレクターであるマーティン・ザプレタル(Martin Zapletal)氏が、AWS re:Invent 2020 に登壇し、同社におけるユビキタスな高速データを活用した顧客エクスペリエンスの改善への取り組みについて講演しました。 ディズニープラスでは、Databricks on AWS を基盤とするアーキテクチャによって、数百万のリアルタイムなストリーミングイベントの処理および分析を行っています。ザプレタル氏の講演では、そのアーキテクチャについて詳しく紹介されました。 セッション要旨: ディズニープラスでは、タイトルレコメンデーションの提供、マイクロサービスへのイベントの送信、オペレーション分析のためのログの作成などのリアルタイムなアクションの推進に Amazon Kinesis を活用し、顧客エクスペリエンスを向上させています。このセッションでは、ディズニープラスがいかにしてリアルタイムかつデータドリブンな能力を備えた統合ストリーミングプラット

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習(ML)ライフサイクルの管理を支援します。 MLflow モデルレジストリ は、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント(CI/CD)のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。 なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...

データサイエンティスト向け:Databricks Notebook を使いこなす 10 のヒント

October 29, 2020 Jules Damji による投稿 in
「最高のアイディアにはシンプルなものがある」という格言があるように、たとえ小さくても大きな違いを生むことがあります。今年行った数回のリリースの過程で、Databricks をシンプルにするために、大きな違いにつながる小さな機能を Notebook に追加しました。 このブログと 付随する Notebook では、簡単なマジックコマンドを紹介し、データサイエンティストの開発時間を短縮し、開発者のエクスペリエンスを向上させるために Notebook に追加したユーザーインターフェースの機能を解説します。 強化された機能には、次のものが含まれます。 %pip install %conda env export および update %matplotlib inline %load_ext tensorboard および...

リアルワールドデータ分析によるハイリスク患者の検知

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。 医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の 予防 が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、 欧州 や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、 神経疾患の原因となる既知の遺伝的リスク などの生物学的リ

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in
Databricks は以前の ブログ で、企業におけるレイクハウス(LH)採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」(Delta Lake:クラウドオブジェクトストアによる高性能ACIDテーブルストレージ)を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文は こちら からダウンロードできます。 「もし私が顧客に何が欲し