レイクハウスまで1分以内のファストトラック
によって Emma Liu, Vincent Liaw, Yu Guo, マラキ・ケテマ, アミット カラ 、 ブレヒト・ムーラン による投稿
Original: Easy Ingestion to Lakehouse with File Upload and Add Data UI
翻訳: junichi.maruyama
Lakehouseへのデータ取り込みは、多くの組織にとってボトルネックとなり得ますが、Databricksを使用すれば、様々なタイプのデータを迅速かつ容易に取り込むことができます。小さなローカルファイルでも、データベース、データウェアハウス、メインフレームなどの大規模なオンプレミスストレージプラットフォームでも、リアルタイムストリーミングデータでも、その他のバルクデータ資産でも、DatabricksはAuto Loader、COPY INTO、Apache Spark™ API、設定可能なコネクタなどの幅広い取り込みオプションであなたをサポートします。また、ノーコードまたはローコードアプローチをご希望の場合は、Databricksはインジェストを簡素化する使いやすいインターフェイスを提供します。
データインジェストブログシリーズの第2弾として、DatabricksのファイルアップロードUIとデータ追加UIをより詳しく解説します。これらの機能により、ファイルをドラッグ&ドロップしてUnity CatalogのセキュアなアクセスでDeltaテーブルにインジェストしたり、ノートブックテンプレートを使って他の幅広いデータソースからインジェストしたり、組み込まれたDatabricks Partner Connect統合からFivetranで利用できる100以上のコネクタから選択することができます。DatabricksのLakehouseインジェストツールを使用することで、データインジェストプロセスを効率化し、データからインサイトを抽出することに集中することができます。

ファイルアップロードUIは、デルタテーブルを作成するためにローカルファイルをシームレスかつ安全にアップロードすることができます。左のナビゲーションバー、またはデータエクスプローラーUIとデータ追加UIから、すべてのペルソナでアクセス可能です。UIを使用して、以下の機能でインジェストすることができます:



ファイルアップロードUIでは、新しいテーブルを作成したり、既存のテーブルを上書きするオプションが用意されています。将来的には、より多くのファイルタイプ、より大きなファイルサイズ、より多くのフォーマットオプションがサポートされる予定です。
2. データ追加UI:すべてのトップインジェストニーズのための中心的な場所
SQL、データサイエンス&エンジニアリング、機械学習で利用可能なデータ追加UIは、すべてのインジェストニーズのためのワンストップショップとして機能します(図5参照)。ユーザーは、インジェストしたいデータソースをクリックし、UIフローやノートブックの指示に従って、ステップバイステップでデータインジェストを完了させることができます。

今日、Databricksは、Azure Data Lake Storage、Amazon S3、Kafka、Kinesisなど、多くのネイティブ統合をサポートしています。しかし、これらのネイティブな統合に限らず、Fivetranがサポートする179のコネクタのうちの1つを活用することも可能です!右上には検索バーがあり、簡単に検索できます。コネクタを選択するだけで、Fivetranのパートナーコネクト体験ができます。

ユーザーは、Unity Catalogがある場合はCatalogを、Unity Catalogがないワークスペースでは自動選択されるhive_metastoreを選択することができる。Fivetranに誘導される前に、コンピュートリソースとアクセストークンがユーザーのためにプロビジョニングされます。ユーザーがFivetranにサインインするか、トライアルを開始するためにアカウントを作成すると、Fivetranのコネクタの1つを使用してDatabricksにデータを取り込むことができるようになります。DatabricksとFivetranの接続は自動設定されるため、手作業は必要ありません!

Databricksワークスペースのインターフェイスに移動し、"+New "をクリックするだけです。File Upload」または「Data」を選択して探索を開始することができます。
私たちは、ファイルアップロードとデータ追加UIの中で、既存のローコード・ノーコードのインジェスト機能を拡張していきます。次回のブログでは、ネイティブ統合のためのUIを深く掘り下げ、Unity Catalogを使ったAzure Data Lake Storage (ADLS), AWS S3, Google Cloud Storage (GCS) からのシームレスなインジェストについて説明します。Lakehouseへのデータ取り込みをこれまで以上に簡単にする、さらなるUI機能にご期待ください。
ブログを購読して、最新の投稿を受信トレイにお届けします。