エンジニアリングのブログ

ページ 12

リアルワールドデータ分析によるハイリスク患者の検知

October 20, 2020 Amir Kermany、Frank Austin Nothaft による投稿 in エンジニアリングのブログ

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の予防が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、欧州や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、神経疾患の原因となる既知の遺伝的リスクなどの生物学的リ

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ

Databricks における公共セクター（州・地方政府）部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な新たな成果の報告もあります。米国疾病予防管理センター（CDC）をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。世界的

カスタマーリテンション（顧客維持）による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

August 24, 2020 ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）、Hector Leano による投稿 in エンジニアリングのブログ

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか？ARPU（顧客 1 人あたりの平均売上高）を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、ニールセンの 2020 年の調査結果では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。新型コロナウイルス感染症（COVID-19）による消費行動

Apache Spark™ 3.0 のデータ型：日付とタイムスタンプ

July 22, 2020 Maxim Gekk、Wenchen Fan、Hyukjin Kwon による投稿 in エンジニアリングのブログ

Apache Spark は、構造化データと非構造化データの処理に使用される非常に一般的なツールです。構造化データの処理に関しては、整数、LONG、DOUBLE、STRING といった多くの基本的なデータ型をサポートしています。Spark は、開発者が理解するのが難しいことが多い DATE や TIMESTAMP などの複雑なデータ型もサポートしています。このブログでは、日付型とタイムスタンプ型について深く掘り下げ、その動作と一般的な問題を回避する方法を解説します。主に、次の 4 つの部分をカバーしています。日付型と関連する暦法の定義と Spark 3.0 から適用された暦法の変更についてタイムスタンプ型の定義とタイムゾーンとの関係（タイムゾーンオフセットの解消に関する詳細と、Spark 3.0 で使用される Java 8 の新しい Time API...

COVID-19 のデータセットがデータブリックスで利用可能に ― データコミュニティによる貢献

April 14, 2020 Christopher Denny による投稿 in エンジニアリングのブログ

2020年4月14日初稿、2020年4月21日更新新型コロナウイルス感染症（COVID-19）の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、米国ジョンズ・ホプキンス大学のシステム科学工学センター（CSSE）が提供するデータリポジトリが挙げられます。このデータセットは、COVID-19（2019-nCoV）について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例（郡地域）と死亡者（円で表現）の比例数を視覚的に示しています。他にも、病原体の進化をリアルタイムで追跡できる新型コロナウイルスのゲノム情報などの例があります（マウスのクリックで感染と系統が再生を再生します）。病院からのリソース使用率のモデリングの有力な例には、ワシントン大学保健指標評価研究所（IHME）によるC

データレイクとデータウェアハウスとは？それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

January 30, 2020 Ben Lorica、Michael Armbrust、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

Databricks では近年、独立した新しいデータ管理のためのオープンアーキテクチャである「データレイクハウス」を利用する多くのユースケースを見てきました。今回は、この新しいアーキテクチャと、かつてのアプローチであるデータウェアハウス（DWH: Data Warehouse）、データレイク（Data Lake）それぞれと比較して優れている点について解説します。データウェアハウス（DWH）とはデータウェアハウス（DWH）とは、膨大な量のデータを利用者の目的に応用しやすくするため、整理・格納する管理システムのことを指します。意思決定支援や BI（ビジネスインテリジェンス）アプリケーションにおいて広く利用されてきており、これには長い歴史があります。データウェアハウスの技術は、1980 年代後半の登場以来進化を続け、MPP アーキテクチャなどの並列処理技術の進歩によって、より大規模なデータ処理が可能なシステムがもたらされました。しかし、データウェアハウスには、エクセルで作成されたような構造化データ（あらかじ

Facebook Prophet と Apache Spark による高精度で大規模な時系列予測・分析とは

January 27, 2020 ビラル・オベイダット（Bilal Obeidat）、ブライアン・スミス（Bryan Smith）、Brenner Heintz による投稿 in Databricks ブログ

Databricks の時系列予測・解析 Notebook を試してみる時系列予測・分析技術の進展により、小売業における需要予測の信頼性は向上しています。しかし、より正確なインベントリ管理を実現したい企業にとっては、予測の精度とタイミングが課題となっています。従来のソリューションにおいては拡張性や正確性の面で制約がありましたが、 Apache Spark™ と Facebook Prophet の活用によってこれらの課題を克服する企業が増えてきています。 To see this solution for Spark 3.0, please read the post here...

データブリックスを活用した大規模な地理空間情報・ジオデータの処理と分析

December 5, 2019 Nima Razavi、Michael Johns による投稿 in エンジニアリングのブログ

近年のテクノロジーの進化と統合により、リアルタイムで正確な地理空間情報・ジオデータを活用した市場が活性化しています。地理空間情報・ジオデータは日々、数十億ものハンドヘルドデバイスや IoT 機器、航空機や人工衛星に搭載された何千ものリモートセンシングプラットフォームから、数百エクサバイト生成されています。このような地理空間ビッグデータの拡大に、近年の機械学習の進展が加わり、業界ではこれを活用した新製品やサービスの開発が進められています。図の説明：地理空間情報・ジオデータによるマップは、災害対策、防衛・インテリジェンス、インフラ事業、医療サービスなど、多くの分野で活用されている。企業における地理空間情報・ジオデータの活用代表例として、ドローンを利用したマッピングや現地調査などのサービス提供があります。（参考：「インテリジェントクラウドとインテリジェントエッジの発展」）。地理空間データの活用で急速な成長を遂げているもう1つの産業は、自動運転車です。スタートアップ企業に加え、既存企業も車載センサーから豊富なコン

Delta Lake でのスキーマ（schema）DB の適用・展開とは

September 24, 2019 Burak Yavuz、Brenner Heintz による投稿 in Databricks ブログ

データブリックスの Notebook シリーズを試すデータは常に進化し、蓄積されていきます。私たち人間の日々の経験と似ているかもしれません。私たちは、自身の周りの世界の変化についていくために、常に新しいデータを取り込み、認識し、ときにはその中から新たな概念や解釈を得ます。このような認識モデルは、まさにテーブルのスキーマそのものです。どちらも、新しく得る情報の分類と処理のしかたを決める役割を持っています。データベースにおけるスキーマとは：そもそも「スキーマ（schema）」とは、日本人にとっても馴染みのある「スキーム（scheme）」という言葉の派生語です。計画や図などの意味を持ち、データベース関連だけでなく、哲学や心理学で使われている言葉でもあります。この記事で説明するデータベーススキーマ（DBスキーマ）とは、簡単に言えばデータベースの構造や整理の仕方のことです。細かな定義は、データベースの種類や会社によって異なりますので、今回は Databricks の次世代型データレイク・データウェアハウスである、D

Delta Lake を深堀り：トランザクションログの解析

August 21, 2019 Burak Yavuz、Michael Armbrust、Brenner Heintz による投稿 in Databricks ブログ

トランザクションログは、ACIDトランザクション、スケーラブルなメタデータ処理、タイムトラベルなど、Delta Lake の最も重要な機能の多くに共通する要素であるため、Delta Lake を理解するうえで重要な鍵となります。この記事では、Delta Lake のトランザクションログとは何か、ファイルレベルでどのように動作するのか、そして、複数の同時読み取りと書き込みの問題に対してどのようにエレガントなソリューションを提供するのかを探ります。 Delta Lake のトランザクションログとは Delta Lakeトランザクションログ（DeltaLog とも呼ばれる）は、Delta Lake テーブルで実行された全てのトランザクションの記録で、その開始以来、順番に記録されています。トランザクションログの目的シングルソースオブトゥルース Delta Lake は Apache Spark™ 上に構築されており、あるテーブルの複数のリーダーやライターが同時にテーブル上で作業することを可能にしています。ユーザーに常