Data Engineering with Databricks - Japanese

Databricks を使用したデータエンジニアリングを学ぶための適切な入門コースです。

以下では、このコースに含まれる 4 つの 4 時間モジュールについてそれぞれ説明します。

注: 以下の 4 つのモジュールについて、Databricks Academy は Databricks 環境内での教室セッションを notebook ベースの形式に移行しており、講義でのスライドデッキの使用を終了します。講義用 notebook には Vocareum lab 環境でアクセスできます。

1. Data Ingestion with Lakeflow Connect

このコースでは、幅広いソースから Databricks へデータを取り込むための、スケーラブルで簡素化されたソリューションである Lakeflow Connect について包括的に紹介します。まず、Lakeflow Connect コネクタのさまざまな種類（Standard および Managed）を確認し、バッチ、増分バッチ、ストリーミングによる取り込みなど、多様なデータ取り込み手法を学びます。また、Delta table と Medallion アーキテクチャを使用する主な利点についても復習します。

次に、Lakeflow Connect Standard Connectors を使用して、クラウドオブジェクトストレージからデータを取り込むための実践的なスキルを習得します。これには、CREATE TABLE AS SELECT (CTAS)、COPY INTO、Auto Loader などの手法の活用が含まれ、各アプローチの利点と考慮事項に重点を置きます。また、Databricks Data Intelligence Platform への取り込み時に、bronze レベルのテーブルにメタデータ列を追加する方法も学びます。続いて、rescued data 列を使用してテーブルスキーマに一致しないレコードを処理する方法や、このデータを管理・分析するための戦略について取り上げます。さらに、半構造化 JSON データを取り込んでフラット化する手法についても確認します。

その後、Lakeflow Connect Managed Connectors を使用して、データベースや Software-as-a-Service (SaaS) アプリケーションからデータを取り込む、エンタープライズグレードのデータ取り込みを実行する方法を確認します。また、パートナーツールを取り込みワークロードに統合するためのオプションとして Partner Connect も紹介します。

最後に、MERGE INTO 操作や Databricks Marketplace の活用など、代替の取り込み戦略を取り上げ、最新のデータエンジニアリングのユースケースを支える確かな基盤を身に付けます。

2. Deploy Workloads with Lakeflow Jobs

Deploy Workloads with Lakeflow Jobs コースでは、Databricks エコシステム内の統合オーケストレーションプラットフォームである Lakeflow Jobs を使用して、データ、分析、AI のワークフローをオーケストレーションおよび自動化する方法を学びます。

• 有向非巡回グラフ (DAG) を使用してデータワークロードを設計・実装し、さまざまなスケジューリングオプションを構成し、条件付きタスク実行、run-if 依存関係、for each ループなどの高度なワークフロー機能を実装する方法を学びます。

• このコースでは、適切なコンピュートの選択、モジュール式のオーケストレーション、エラー処理手法、フォールトトレラントな設計を備えた、堅牢で本番環境対応のパイプラインを作成するためのベストプラクティスを取り上げます。これらはすべて Databricks Data Intelligence Platform にネイティブに統合されています。

3. Build Data Pipelines with Apache Spark Declarative Pipelines

このコースでは、Databricks の Apache Spark Declarative Pipelines (SDP) を使用して、複数のストリーミングテーブルとマテリアライズドビューを通じた増分バッチまたはストリーミングの取り込みと処理を行うデータパイプラインを構築するために必要な、基本的な概念とスキルを紹介します。Spark Declarative Pipelines を初めて使用するデータエンジニア向けに設計されており、増分データ処理、ストリーミングテーブル、マテリアライズドビュー、一時ビューなどの主要コンポーネントを包括的に概説し、それぞれの目的と違いを明確にします。

取り上げるトピックは以下のとおりです。

• SQL を使用した Spark Declarative Pipelines のマルチファイルエディタによる ETL パイプラインの開発とデバッグ（Python コード例を提供）

• Spark Declarative Pipelines がパイプライングラフを通じてパイプライン内のデータ依存関係を追跡する方法

• パイプラインのコンピュートリソース、データアセット、トリガーモード、その他の高度なオプションの構成

次に、Spark Declarative Pipelines のデータ品質エクスペクテーションを紹介し、データの整合性を検証・強制するためにエクスペクテーションをパイプラインに統合するプロセスを案内します。続いて、スケジューリングオプションを含むパイプラインの本番稼働の方法や、パイプラインのパフォーマンスと正常性を監視するためのパイプラインイベントログの有効化について確認します。

最後に、Spark Declarative Pipelines 内で AUTO CDC INTO 構文を使用して Change Data Capture (CDC) を実装し、緩やかに変化するディメンション（SCD Type 1 および Type 2）を管理する方法を取り上げ、CDC を自身のパイプラインに統合できるように準備します。

4. DevOps Essentials for Data Engineering

このコースでは、Databricks を使用するデータエンジニア向けに特化した、ソフトウェアエンジニアリングのベストプラクティスと DevOps の原則を探求します。受講者は、コード品質、バージョン管理、ドキュメント作成、テストといった主要トピックについて確かな基盤を築きます。このコースでは DevOps に重点を置き、その中核となるコンポーネント、利点、そしてデータエンジニアリングのワークフローを最適化する上での継続的インテグレーションとデリバリー (CI/CD) の役割を取り上げます。

再利用可能なコンポーネントを作成し、コードを効率的に構造化するために、PySpark でモジュール性の原則を適用する方法を学びます。ハンズオンでは、pytest フレームワークを使用した PySpark 関数の単体テストの設計と実装、続いて信頼性を確保するための Spark Declarative Pipeline および Jobs を使用した Databricks データパイプラインの統合テストを行います。

また、継続的インテグレーションのプラクティスを統合するための Databricks Git Folders の使用など、Databricks 内の必須の Git 操作についても取り上げます。最後に、REST API、CLI、SDK、Declarative Automation Bundles (DABs) など、Databricks アセットのさまざまなデプロイ方法を大まかに確認し、パイプラインをデプロイ・管理するための手法に関する知識を習得します。

コースを修了する頃には、ソフトウェアエンジニアリングと DevOps のベストプラクティスに習熟し、スケーラブルで保守性が高く、効率的なデータエンジニアリングソリューションを構築できるようになります。

Skill Level

Associate

Duration

16h

Prerequisites

1. Data Ingestion with Lakeflow Connect

• Databricks Workspaces、Apache Spark、Delta Lake、Medallion アーキテクチャ、Unity Catalog を含む、Databricks Data Intelligence Platform に関する基本的な理解。

• データ取り込みワークフロー（バッチ、ストリーミング、増分）と一般的な ETL の原則に関する基本的な理解。

• さまざまなファイル形式（例: Parquet、CSV、JSON、TXT）を扱った経験。

• SQL と Python の習熟。

• Databricks ノートブックでのコード実行に関する知識。

2. Deploy Workloads with Lakeflow Jobs

• コース「Get Started with Databricks for Data Engineering」の修了、または Databricks Data Intelligence Platform に関する確かな理解。

• Databricks Workspace のナビゲーション、Apache Spark、Delta Lake、Medallion アーキテクチャ、Unity Catalog などのトピックに関する基本的な理解。

• Python/PySpark に関する知識。

• 中級レベルの SQL クエリを記述した経験。

3. Build Data Pipelines with Apache Spark Declarative Pipelines

• Databricks Workspaces、Apache Spark、Delta Lake、Medallion アーキテクチャ、Lakeflow Jobs、Unity Catalog を含む、Databricks Data Intelligence Platform に関する基本的な理解。

• read_files SQL 関数を使用して CSV、JSON、TXT、Parquet などの形式を読み込むことを含む、raw データを Delta table に取り込んだ経験。

• 中級レベルのクエリの記述や SQL 結合の基本的な理解を含む、SQL を使用したデータ変換の習熟。

• ETL の概念、およびバッチ/ストリーミングワークフローの理解。

4. DevOps Essentials for Data Engineering

• Databricks Workspaces、Apache Spark、Delta Lake、Medallion アーキテクチャ、Unity Catalog、Delta Live Tables、Workflows を扱った経験を含む、Databricks プラットフォームに関する十分な知識。Git バージョン管理に関する基本的な理解も必要です。

• データの取り込みと変換の経験、およびデータ処理と DataFrame 操作における PySpark の習熟。さらに、データ分析および変換のために中級レベルの SQL クエリを記述した経験が必要です。

• Python プログラミングの知識、および関数やクラスを設計・実装する能力を含む、中級レベルの Python コードを記述する習熟度。また、Python パッケージの作成、インポート、効果的な活用にも習熟している必要があります。

Outline

1. Data Ingestion with Lakeflow Connect

• Databricks におけるデータエンジニアリング

• ラボ環境の探索

• クラウドストレージからのデータ取り込み

• デモ - CREATE TABLE AS と COPY INTO によるデータ取り込み

• デモ - Auto Loader を使用した SQL でのストリーミングテーブルの作成

• 取り込み時のメタデータ列の追加

• デモ - 取り込み時のメタデータ列の追加

• Rescued Data 列の操作

• デモ - Rescued Data 列を使用した CSV 取り込みの処理

• ラボ - CSV ファイルからの Bronze テーブルの作成

• 半構造化データの取り込み: JSON

• デモ - Databricks を使用した JSON ファイルの取り込み

• ラボ - JSON ファイルからの Bronze テーブルの作成

• エンタープライズデータ取り込みの概要

• デモ - LakeFlow Connect によるエンタープライズデータの取り込み

• 追加機能と既存の Delta Tables への取り込み

• デモ - ボーナス - MERGE INTO によるデータ取り込み

2. Deploy Workloads with Lakeflow Jobs

• Databricks におけるデータエンジニアリングの概要

• Lakeflow Jobs の中核コンポーネント

• コースプロジェクトの概要

• デモ: Lakeflow Jobs UI を使用したジョブの作成

• ラボ: 最初のジョブの作成

• ジョブの作成とスケジュール設定

• デモ: スケジュールとトリガーによるワークロードの自動化

• 条件付きタスクと反復タスク

• デモ: 高度なタスクによる動的ワークロードの構築

• ラボ: If-Else タスクの追加とジョブの自動化

• タスク失敗の処理とジョブパフォーマンスの監視

• デモ: タスクの監視と修復

• 本番環境における Lakeflow Jobs とベストプラクティス

• ボーナスラボ: モジュール式オーケストレーション

3. Build Data Pipelines with Apache Spark Declarative Pipelines

• Databricks におけるデータエンジニアリングの概要

• デモ: コースのセットアップとパイプラインの作成

• コースプロジェクトとデータセットタイプの概要

• 簡素化されたパイプライン開発と一般的なパイプライン設定

• デモ: シンプルなパイプラインの開発

• Expectations によるデータ品質の確保

• デモ: データ品質 Expectations の追加

• ラボ: パイプラインの作成

• ストリーミング結合と本番環境へのパイプラインのデプロイ

• デモ: 本番環境へのパイプラインのデプロイ

• Change Data Capture (CDC) の概要

• デモ: SCD TYPE 1 での AUTO CDC を使用した Change Data Capture

• ボーナスラボ: SCD Type 1 での AUTO CDC INTO

4. DevOps Essentials for Data Engineering

Continuous Integration (CI)

• ソフトウェアエンジニアリング (SWE) のベストプラクティスの概要

• PySpark コードのモジュール化の概要

• デモ: PySpark コードのモジュール化 - 必須

• ラボ: PySpark コードのモジュール化

• DevOps の基礎

• DevOps における CI と CD の役割

• プロジェクトの計画

• デモ: プロジェクトセットアップの探索

• PySpark の単体テストの概要

• デモ: 単体テストの作成と実行

• ラボ: 単体テストの作成と実行

• SDP と Jobs を使用した統合テストの実行

• デモ: 統合テストの実施

• Git によるバージョン管理の概要

• ラボ: Databricks Git Folders と GitHub によるバージョン管理

Continuous Deployment (CD)

• Databricks アセットのデプロイの概要

• デモ: Databricks アセットのデプロイ

Upcoming Public Classes

Date	Time	Your Local Time	Language	Price
Date	Time	Your Local Time	Language	Price	Sep 29 - 30	09 AM - 05 PM (Asia/Tokyo)	-	Japanese	$1500.00
Oct 08 - 09	09 AM - 05 PM (Asia/Tokyo)	-	Japanese	$1500.00

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Customer registration Partner registration

Private Class Request

If your company is interested in private training, please submit a request.

Request Private Training

See all our registration options

Upcoming Public Classes

Date	Time	Your Local Time	Language	Price
Date	Time	Your Local Time	Language	Price	Sep 29 - 30	09 AM - 05 PM (Asia/Tokyo)	-	Japanese	$1500.00
Oct 08 - 09	09 AM - 05 PM (Asia/Tokyo)	-	Japanese	$1500.00

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

今すぐ登録

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

今すぐ登録

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Generative AI Engineer

Generative AI Engineering with Databricks - Japanese

本コースは、最新かつ最も普及しているフレームワークとDatabricksの機能を使用して生成AIアプリケーションを構築したいデータサイエンティスト、機械学習エンジニア、その他のデータ実務者を対象としています。

注: Databricks Academyは、Databricks環境内の教室セッションをノートブックベースの形式へ移行しており、講義でのスライドデッキの使用を終了します。講義用ノートブックはVocareumのラボ環境で利用できます。

以下では、本コースに含まれる4つの4時間モジュールについてそれぞれ説明します。

Building RAG Agents with Agent Bricks: 本コースでは、Databricks Agent Bricksを使用して検索エージェントを構築するための実践的なトレーニングを提供します。参加者は、Knowledge Assistantsの探索とクエリ、AI Functionsを使用した非構造化ドキュメントの構造化データへの解析、セマンティック検索のためのテキストのチャンク分割、Vector Searchインデックスの構築、および複数のナレッジソースに支えられた本番運用対応のKnowledge Assistantsの作成方法を学びます。

Building Agentic Applications on Databricks: 本コースでは、Databricks上で本番グレードのエージェントアプリケーションを構築する方法を学びます。受講者は、Unity CatalogとMCPを使用してガバナンスされたエージェントツールを作成し、OpenAI Agents SDKを使用してシングルエージェントおよびマルチエージェントシステムを構築し、スーパーバイザーエージェントによってオーケストレーションされるknowledge assistantのユースケースのためにAgent BricksとGenieを活用する方法を学びます。本コースは、ツールのプロトタイピングから本番環境へのデプロイまでの全過程を扱い、MLflowのトレーシングを使用してエージェントの実行を観察する実践的な経験を提供します。

Agent Evaluation on Databricks: 本コースでは、MLflowの評価フレームワークを使用してAIエージェントを体系的に評価する方法を学び、従来のソフトウェアテストでは対応できない非決定論的なAIシステム特有の課題に取り組みます。受講者は、正確性や安全性などの一般的な基準のための組み込みジャッジ(built-in judges)、ビジネス固有の要件のためのガイドラインジャッジ、専門的なニーズのためのカスタムジャッジなど、さまざまな評価アプローチを実装する方法を学びます。本コースでは、キュレーションされたデータセットを使用したオフライン評価と、オンラインの本番モニタリングの両方を扱い、MLflowのトレーシング機能を使用してエージェントの実行パターンを理解し、さまざまなタイプのステークホルダーから人間のフィードバックを収集する実践的な経験を提供します。実践的なデモとラボを通じて、受講者はAIエージェントの開発ライフサイクル全体にわたって継続的な品質改善を推進する評価ワークフローを作成するスキルを習得します。

Deploying and Monitoring Agent Applications on Databricks: 本コースでは、Databricks上で生成AIエージェントをデプロイおよびモニタリングするためのエンドツーエンドのライフサイクルを扱います。参加者は、Declarative Automation Bundles(DABs)を使用してエージェントをDatabricks Appsとしてデプロイし、Model Context Protocol(MCP)を介してツールを統合し、MLflow Tracingでエージェントを計装し、スコアラー、マルチターンジャッジ、オンライン評価を使用して本番品質を評価する方法を学びます。実践的なデモとラボを通じて、参加者はDatabricksプラットフォーム上で本番グレードのAIエージェントを構築、観察、モニタリングする実践的な経験を得ます。

Languages Available: English | 日本語 | Português BR | 한국어

Generative AI Engineer

Building Agentic Applications on Databricks - Japanese

このコースでは、Databricks上で本番運用グレードのAgentic Applicationsを構築する方法を学びます。受講者は、Unity CatalogとMCPを使用してガバナンスが適用されたAgentツールを作成し、OpenAI Agents SDKで単一およびマルチAgentシステムを構築し、Supervisor AgentでオーケストレーションされるKnowledge AssistantのユースケースにAgent BricksとGenieを活用する方法を学びます。ツールのプロトタイピングから本番運用へのデプロイまでの全過程を扱い、MLflow tracingを使用してAgentの実行を観測するハンズオン経験を積みます。

Generative AI Engineer

Deploying and Monitoring Agent Applications on Databricks - Japanese

このコースでは、Databricksで生成AI Agentをデプロイおよびモニタリングするためのエンドツーエンドのライフサイクルを扱います。受講者は、Declarative Automation Bundles（DABs）を使用してAgentをDatabricks Appsとしてデプロイする方法、Model Context Protocol（MCP）を介してツールを統合する方法、MLflow TracingでAgentを計装する方法、ならびにスコアラー、マルチターンジャッジ、オンライン評価を使用して本番運用品質を評価する方法を学びます。ハンズオン形式のデモとラボを通じて、Databricksプラットフォーム上で本番運用グレードのAI Agentを構築、観測、モニタリングする実践的な経験を積みます。