COVID-19 のデータセットがデータブリックスで利用可能に ― データコミュニティによる貢献

Community Editionに代わり、Free Editionでは無料でより充実した機能をご利用いただけます。ぜひ今日からぜひFree Editionをお試しください。

2020年4月14日初稿、2020年4月21日更新

新型コロナウイルス感染症（COVID-19）の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、米国ジョンズ・ホプキンス大学のシステム科学工学センター（CSSE）が提供するデータリポジトリが挙げられます。このデータセットは、COVID-19（2019-nCoV）について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例（郡地域）と死亡者（円で表現）の比例数を視覚的に示しています。

他にも、病原体の進化をリアルタイムで追跡できる新型コロナウイルスのゲノム情報などの例があります（マウスのクリックで感染と系統が再生を再生します）。

新型コロナウイルスのゲノム情報（2020年4月8日） — 図2 - 出典：新型コロナウイルスのゲノム情報（2020年4月8日以降）

病院からのリソース使用率のモデリングの有力な例には、ワシントン大学保健指標評価研究所（IHME）によるCOVID-19に関する予測があります。次のスクリーンショットは、病院リソースの予測使用率のメトリックを示しており、2020年3月28日がリソース使用量のピークであったことがわかります。

図3 - IHMEによるイタリア国内におけるCOVID-19の予測（2020年4月8日以降）

いかに貢献できるか

データブリックスでは、COVID-19の克服は現時点で世界で最も困難な問題であり、重要な意思決定を支援するには、基礎となるデータを理解することが大切だと考えています。そこで私たちは、データ探索の初心者からデータ専門家までの誰もがこの取り組みに参加できるよう、対策を講じました。

対策の一環として、COVID-19データセットの分析の入門編として「COVID-19の分析：データコミュニティはいかに貢献できるか」をテーマとした技術トークのセッションを3月の下旬に開催しました。本セッションでは、Apache Spark™、Python、pandas、BERTなどのさまざまなオープンソースプロジェクトを用いて、探索的データ分析と自然言語処理（NLP）を行いました。また、これらのNotebookをダウンロードできるようにして、ローカルのPython仮想環境、クラウドコンピューティング、Databricks Community Editionなど、ユーザーが好む環境を選択して使用できるようにしました。

このセッションでは、新型コロナウイルスに関する研究データセットのCORD-19（COVID-19 Open Research Dataset Challenge）を分析し、次の点を確認しました。

数千のJSONファイルが存在し、各ファイルに参照文献など研究論文のテキストの詳細が含まれているが、JSONスキーマは複雑で、データ処理の作業は難しくなる場合がある。これに対して、Apache SparkはこれらのJSONファイルのスキーマを迅速かつ自動的に推論できるため、このNotebookを使用して、数千ものJSONファイルをわずか数個のParquetファイルに保存し、探索的データ分析を容易に実行できる。
大半のテキストは構造化されておらず、筆頭著者の国名の特定ができないなど、データ品質の問題がある。このNotebookでは、このデータをクリーンアップし、ISO Alpha 3の国名コードを特定する手順を提供している。これにより、筆頭著者の国別の論文数をマッピングできる。

「COVID-19の分析：データコミュニティはいかに貢献できるか」より、COVID-19関連論文の筆頭著者の国別の論文数 — 図4 - COVID-19関連論文の筆頭著者の国別の論文数
（出典：「COVID-19の分析：データコミュニティはいかに貢献できるか」）

データをクリーンアップすることで、各種NLPアルゴリズムの適用が可能になり、データから新たな気づきを得ることができる。このNotebookは、論文の抄録（論文あたり7,800から1,100文字）の一般化や、研究論文タイトルをもとにしたワードクラウドの作成など（下図）、さまざまなタスクに利用できる。

OVID-19関連の研究論文タイトルに基づくワードクラウド（出典：「COVID-19の分析：データコミュニティはいかに貢献できるか」） — 図5 - OVID-19関連の研究論文タイトルに基づくワードクラウド
（出典：「COVID-19の分析：データコミュニティはいかに貢献できるか」）

データの重要性

データアナリスト、データエンジニア、データサイエンティストの多くが認めるように、データの品質は探索的データ分析に大きな影響を及ぼします。ブログ、A Few Useful Things to Know about Machine Learning（2012年10月）（機械学習について知っておくべきこと）に、次のような記述があります。

「ダメなアルゴリズムと膨大なデータの組み合わせは、賢いアルゴリズムと少なめの量のデータの組み合わせに勝つ（アルゴリズムの善し悪しより、データ量が重要）」　

データコミュニティの多くは、さまざまなSARS-CoV-2（原因）とCOVID-19（疾患）のデータセットをKaggleやGitHubで利用できるように、適宜取り組んでいます。

私たちは、データブリックスまたは Databricks Community Editionを使用しているユーザーが分析をより簡単に実行できるように、研究用のさまざまな COVID-19 データセットを定期的に更新、提供しています（非営利目的）。現在、更新しているのは下記のデータセットです。今後さらに追加される予定です。

/databricks-datasets/[location]	リソース
/../COVID/CORD-19/	COVID-19 Open Research Dataset Challenge (CORD-19)
/../COVID/CSSEGISandData/	ジョンズ・ホプキンス大学 CSSEによる新型コロナウイルス感染症COVID-19（2019-nCoV）のデータリポリトジ
/../COVID/ESRI_hospital_beds/	Definitive Healthcare社による米国内の病院のベッド数
/../COVID/IHME/	米ワシントン大学医学部（IHME）による COVID-19 プロジェクション
/../COVID/USAFacts/	USA Facts：感染者数 \| 死亡者数
/../COVID/coronavirusdataset/	COVID-19のデータサイエンス（韓国）
/../COVID/covid-19-data/	ニューヨーク・タイムズ紙のCOVID-19 データセット