メインコンテンツへジャンプ
<
ページ 8
>

Databricksのファイルシステム

June 17, 2021 Takaaki Yayoi による投稿 in ソリューション
こちら からサンプルノートブックをダウンロードできます。 Databricksでファイルを取り扱う際には、Databricks File System (DBFS) を理解する必要があります。 本記事では、DBFSの概要をご説明するとともに、具体的な使用例をご説明します。 Databricks File System (DBFS) Databricks File System (DBFS) はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします: オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができます。 ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできます。 ファイルはオブジェクトストレージで永続化されるので、クラス

COVID-19 のデータセットが データブリックスで利用可能に ― データコミュニティによる貢献

2020年4月14日初稿、2020年4月21日更新 新型コロナウイルス感染症(COVID-19)の感染拡大による混乱の中、データエンジニアやデータサイエンティストの多くが「データコミュニティとして何ができるだろうか」と自問し続けています。データコミュニティは、この短期間で実際に大きな貢献をしており、その代表例として、 米国ジョンズ・ホプキンス大学のシステム科学工学センター(CSSE)が提供するデータリポジトリ が挙げられます。このデータセットは、COVID-19(2019-nCoV)について最も広く利用されているものの1つです。次のGIF動画は、3月22日から4月14日にかけての検査確定症例(郡地域)と死亡者(円で表現)の比例数を視覚的に示しています。 他にも、病原体の進化をリアルタイムで追跡できる 新型コロナウイルスのゲノム情報 などの例があります(マウスのクリックで 感染と系統が再生 を再生します)。 病院からのリソース使用率のモデリングの有力な例には、 ワシントン大学保健指標評価研究所(IHME) によるC

データブリックスを活用した大規模な地理空間情報・ジオデータの処理と分析

December 5, 2019 Nima RazaviMichael Johns による投稿 in エンジニアリングのブログ
近年のテクノロジーの進化と統合により、リアルタイムで正確な地理空間情報・ジオデータを活用した市場が活性化しています。地理空間情報・ジオデータは日々、数十億ものハンドヘルドデバイスや IoT 機器、航空機や人工衛星に搭載された何千ものリモートセンシングプラットフォームから、数百エクサバイト生成されています。このような地理空間ビッグデータの拡大に、近年の機械学習の進展が加わり、業界ではこれを活用した新製品やサービスの開発が進められています。 図の説明:地理空間情報・ジオデータによるマップは、災害対策、防衛・インテリジェンス、インフラ事業、医療サービスなど、多くの分野で活用されている。 企業における地理空間情報・ジオデータの活用代表例として、ドローンを利用したマッピングや現地調査などのサービス提供があります。(参考: 「インテリジェントクラウドとインテリジェントエッジの発展」 )。地理空間データの活用で急速な成長を遂げているもう1つの産業は、自動運転車です。スタートアップ企業に加え、既存企業も車載センサーから豊富なコン

Delta Lake でのスキーマ(schema)DB の適用・展開とは

September 24, 2019 Burak YavuzBrenner Heintz による投稿 in Databricks ブログ
データブリックスの Notebook シリーズを試す データは常に進化し、蓄積されていきます。私たち人間の日々の経験と似ているかもしれません。私たちは、自身の周りの世界の変化についていくために、常に新しいデータを取り込み、認識し、ときにはその中から新たな概念や解釈を得ます。このような認識モデルは、まさにテーブルのスキーマそのものです。どちらも、新しく得る情報の分類と処理のしかたを決める役割を持っています。 データベースにおけるスキーマとは : そもそも「スキーマ(schema)」とは、日本人にとっても馴染みのある「スキーム(scheme)」という言葉の派生語です。計画や図などの意味を持ち、データベース関連だけでなく、哲学や心理学で使われている言葉でもあります。この記事で説明するデータベーススキーマ(DBスキーマ)とは、簡単に言えばデータベースの構造や整理の仕方のことです。細かな定義は、データベースの種類や会社によって異なりますので、今回は Databricks の次世代型データレイク・データウェアハウスである、D