メインコンテンツへジャンプ
<
ページ 12
>

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in エンジニアリングのブログ
このブログは、CIDR レポート 「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」 (レイクハウス:データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム)の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。 データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ(データレイクとデータウェアハウス)の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習(ML)ライフサイクルの管理を支援します。 MLflow モデルレジストリ は、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント(CI/CD)のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。 なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...

データサイエンティスト向け:Databricks Notebook を使いこなす 10 のヒント

October 29, 2020 Jules Damji による投稿 in エンジニアリングのブログ
「最高のアイディアにはシンプルなものがある」という格言があるように、たとえ小さくても大きな違いを生むことがあります。今年行った数回のリリースの過程で、Databricks をシンプルにするために、大きな違いにつながる小さな機能を Notebook に追加しました。 このブログと 付随する Notebook では、簡単なマジックコマンドを紹介し、データサイエンティストの開発時間を短縮し、開発者のエクスペリエンスを向上させるために Notebook に追加したユーザーインターフェースの機能を解説します。 強化された機能には、次のものが含まれます。 %pip install %conda env export および update %matplotlib inline %load_ext tensorboard および...

リアルワールドデータ分析によるハイリスク患者の検知

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。 医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の 予防 が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、 欧州 や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、 神経疾患の原因となる既知の遺伝的リスク などの生物学的リ

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ
Databricks における公共セクター(州・地方政府)部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。 暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な 新たな成果の報告 もあります。米国疾病予防管理センター(CDC)をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。 私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。 世界的

カスタマーリテンション(顧客維持)による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長 し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。 ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか?ARPU(顧客 1 人あたりの平均売上高)を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、 ニールセンの 2020 年の調査結果 では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。 多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。 新型コロナウイルス感染症(COVID-19)による消費行動

Apache Spark™ 3.0 のデータ型:日付とタイムスタンプ

Apache Spark は、構造化データと非構造化データの処理に使用される非常に一般的なツールです。構造化データの処理に関しては、整数、LONG、DOUBLE、STRING といった多くの基本的なデータ型をサポートしています。Spark は、開発者が理解するのが難しいことが多い DATE や TIMESTAMP などの複雑なデータ型もサポートしています。このブログでは、日付型とタイムスタンプ型について深く掘り下げ、その動作と一般的な問題を回避する方法を解説します。主に、次の 4 つの部分をカバーしています。 日付型と関連する暦法の定義と Spark 3.0 から適用された暦法の変更について タイムスタンプ型の定義とタイムゾーンとの関係(タイムゾーンオフセットの解消に関する詳細と、Spark 3.0 で使用される Java 8 の新しい Time API...

COVID-19 のデータセットが データブリックスで利用可能に ― データコミュニティによる貢献

2020年4月14日初稿、2020年4月21日更新 新型コロナウイルス感染症(COVID-19)の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、 米国ジョンズ・ホプキンス大学のシステム科学工学センター(CSSE)が提供するデータリポジトリ が挙げられます。このデータセットは、COVID-19(2019-nCoV)について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例(郡地域)と死亡者(円で表現)の比例数を視覚的に示しています。 他にも、病原体の進化をリアルタイムで追跡できる 新型コロナウイルスのゲノム情報 などの例があります(マウスのクリックで 感染と系統が再生 を再生します)。 病院からのリソース使用率のモデリングの有力な例には、 ワシントン大学保健指標評価研究所(IHME) によるC

データレイクとデータウェアハウスとは?それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「 データレイクハウス 」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス(DWH: Data Warehouse)、データレイク(Data Lake)それぞれと比較して優れている点について解説します。 データウェアハウス(DWH)とは データウェアハウス(DWH)とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており、これには 長い歴史 があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ(あらかじ