メインコンテンツへジャンプ

Advanced Data Engineering with Databricks - Japanese

このコースは、Databricksを使った高度なデータエンジニアリングを学ぶための適切な入り口となります。以下では、このコースに含まれる4つの4時間の各モジュールについて説明します。


注記:Databricks Academyでは、Databricks環境内での教室セッションをノートブック形式に移行し、最初のモジュールにおける講義用スライドデッキの使用を終了します。講義ノートブックはVocareumラボ環境でアクセス可能です。


Advanced Techniques with Spark Declarative Pipelines

本コースでは、本番環境向けのストリーミングパイプラインを構築するための、DatabricksのLakeflow Spark Declarative Pipelines(SDP)について解説します。実世界のlakehouseエンジニアリングに不可欠な、高度な設計パターン、堅牢なデータ品質管理、およびクロスプラットフォーム統合について学びます。


コース全体を通じて、最新のデータ取り込みおよび処理技術について深く掘り下げ、レイアウト最適化のためのリキッドクラスタリングや、混合スキーマのイベントに対応するマルチプレックス・ストリーミング・パターンなどのツールを習得します。各モジュールを修了する頃には、スキーマの進化に自信を持って対応し、チェンジデータキャプチャ(CDC)を自動化し、データの整合性を確保する方法が理解できるようになります。


講義と実践的なデモを通じて、以下のことを学びます:

• マルチソースのデータを統一されたブロンズテーブルに取り込むためのマルチフローパイプラインを構築する。

• シルバー層およびゴールド層全体にリキッドクラスタリングとデータ品質の期待値を適用する。

• クロスプラットフォームのデータアクセスを実現するために、Iceberg UniForm を使用したマルチプレックスパターンを実装する。

• AUTO CDC INTO を使用して、SCD タイプ 2 の履歴追跡を自動化する。

• 無効なレコードを監査および管理するための、データ損失ゼロの隔離パイプラインを設計する。


Databricks Data Privacy

このコンテンツは、Databricks内でのデータプライバシー管理に関する包括的なガイドを提供します。Delta Lakeアーキテクチャ、リージョナルデータ分離、GDPR/CCPAコンプライアンス、チェンジデータフィード(CDF)の使用といった主要トピックを網羅しています。実践的なデモとハンズオンラボを通じて、参加者は機密データの保護とコンプライアンス確保のためのUnity Catalog機能の使用方法を学び、データ整合性を効果的に保護する能力を身につけます。


Databricks Performance Optimization

このコースでは、SparkとDelta Lakeを用いたワークロードと物理レイアウトの最適化手法、およびSpark UIの分析によるパフォーマンス評価とアプリケーションのデバッグ方法を学びます。ストリーミング、流動的クラスタリング、データスキップ、キャッシュ、Photonsなどのトピックを網羅します。


Automated Deployment with Declarative Automation Bundles

本コースでは、DevOpsの原則と、Databricks projectsへのその適用について包括的に解説します。まず、DevOps、DataOps、継続的インテグレーション(CI)、継続的デプロイメント(CD)、およびテストの概要から始まり、これらの原則をデータエンジニアリングパイプラインにどのように適用できるかを掘り下げます。


続いて、CI/CDプロセスにおける継続的デプロイメントに焦点を当て、プロジェクトのデプロイメントに利用できるDatabricks REST API、SDK、CLIなどのツールについて解説します。Declarative Automation Bundles(DAB)について、またそれらがCI/CDプロセスにどのように組み込まれるかを学びます。DABの主要な構成要素やフォルダ構造、そしてDatabricks内のさまざまなターゲット環境へのデプロイをどのように効率化するかを詳しく掘り下げます。また、Databricks CLIを使用して、異なる構成を持つ複数の環境向けに、変数の追加、修正、検証、デプロイ、およびDeclarative Automation Bundlesの実行を行う方法についても学びます。


最後に、本コースでは、Declarative Automation Bundleをローカルでビルド、テスト、デプロイするためのインタラクティブ開発環境(IDE)としてVisual Studio Codeを紹介し、開発プロセスの最適化を図ります。コースの最後には、GitHub Actionsを使用したデプロイパイプラインの自動化について解説し、Declarative Automation Bundleを活用したCI/CDワークフローの強化について紹介します。


このコースを修了する頃には、Declarative Automation Bundles を使用して Databricks projectのデプロイを自動化できるようになり、DevOps の実践を通じて効率を向上させることができるようになります


Languages Available: English | 日本語 | Português BR | 한국어

Skill Level
Professional
Duration
16h
Prerequisites

• Spark Declarative Pipelines — 「Lakeflow Spark Declarative Pipelines を使用したデータパイプラインの構築」コースの修了、または CREATE OR REFRESH STREAMING TABLE、制約(CONSTRAINTS)、および Pipelines UI に関する知識

• Delta Lakeの基礎 — Deltaテーブル、およびDeltaによるデータファイルとトランザクションログの管理方法に関する理解

• ストリーミングの概念 — SDPにおけるマイクロバッチストリーミング、チェックポイント、イベントタイム処理に関する知識

• SQLの習熟度 — SELECT、JOIN、MERGE、CASE WHEN、および一般的な集計関数を含む、SQLの読み書き能力

• Databricks Notebooks での Python — Databricks Notebooks での Python コードの閲覧および実行に慣れていること

• Unity Catalog の基礎 — Unity Catalog におけるカタログ、スキーマ、テーブル、ボリュームに関する理解

• Databricks データエンジニアリングおよびデータサイエンスワークスペースを使用した基本的なコード開発タスクを実行できること(クラスターの作成、ノートブックでのコード実行、基本的なノートブック操作、Git からのリポジトリインポートなど)

• PySpark の中級レベルのプログラミング経験

• さまざまなファイル形式やデータソースからデータを抽出する

• データクレンジングのために、一般的な変換処理を適用する

• 高度な組み込み関数を使用して、複雑なデータを再構成および操作する

• Delta Lake の中級レベルのプログラミング経験(テーブルの作成、完全更新および増分更新の実行、ファイルの圧縮、以前のバージョンの復元など)

• Lakeflow Spark Declarative Pipelines UI を使用したデータパイプラインの設定およびスケジューリングに関する初級レベルの経験

• PySpark を使用した Lakeflow Spark Declarative Pipelines の定義に関する初級レベルの経験

• Auto Loader および PySpark 構文を使用したデータの取り込みと処理

• APPLY CHANGES INTO構文を使用したチェンジデータキャプチャフィードの処理

• パイプラインのイベントログと結果を確認し、Declarative Pipeline構文のトラブルシューティングを行う

• Databricks platformに関する深い知識。これには、Databricks Workspaces、Apache Spark、Delta Lake、メダリオンアーキテクチャ、Unity • Catalog、Lakeflow Declarative Pipelines、およびワークフローの経験が含まれます。特に、Lakeflow Declarative Pipelinesにおける "Expectations" の活用に関する知識が必要です。

• データ取り込みおよび変換の経験があり、データ処理およびDataFrame操作におけるPySparkに精通していること。また、データ分析および変換のための中級レベルのSQLクエリの作成経験も必要です。

• 関数およびクラスの設計・実装能力を含む、Pythonプログラミングに関する習熟度を有し、Pythonパッケージの作成、インポート、および活用経験があること。

• DevOpsの実践、特に継続的インテグレーションおよび継続的デリバリー/デプロイメント(CI/CD)の原則に関する知識を有していること。

• Gitによるバージョン管理について、基本的な理解を有していること。

• 前提コース:「データエンジニアリングのためのDevOpsの基本」コース

Outline

Advanced Techniques with Spark Declarative Pipelines

• SDPにおけるマルチフロー、期待値、およびリキッド・クラスタリングの概要

• デモ: 液体クラスタリングとデータ品質を備えたマルティフローSDP

• マルチプレックス・ストリーミング、デルタ・シンク、およびアイスバーグ・リードの概要

• デモ: デルタシンクとアイスバーグ読み取りを用いたマルチプレックス・ストリーミングSDP

• チェンジデータキャプチャ(CDC)の復習

• デモ: Automating SCD Type 2 with AUTO CDC in Lakeflow Spark Declarative Pipelines

• Lakeflow Spark Declarative PipelinesにおけるAUTO CDCを用いたSCDタイプ2の自動化

• デモ: SDPにおける高度なデータ品質チェックと期待値

• ラボ  - SDPを活用したマルチソースECパイプラインの構築


Databricks Data Privacy

• データを安全に保管する

• Unity Catalog

• PIIデータセキュリティ

• ストリーミングデータおよびCDF


Databricks Performance Optimization

• Spark アーキテクチャ

• 基礎の設計

• コードの最適化

• 微調整:適切なクラスターの選択


Automated Deployment with Declarative Automation Bundles

• DevOpsおよびCI/CDの概要

• Declarative Automation Bundles(DAB)を使用したデプロイ

• Databricks Asset Bundlesをさらに活用する

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Private Class Request

If your company is interested in private training, please submit a request.

See all our registration options

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Runtime

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

今すぐ登録

Instructors

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

今すぐ登録

Learning

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Scale

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Questions?

If you have any questions, please refer to our Frequently Asked Questions page.