Apache Spark™ Programming with Databricks - Japanese

このコースは、Databricksを使ったApache Sparkプログラミングを学ぶための適切な入口となります。

以下では、このコースに含まれる4つのモジュール（4時間）について説明します。

Introduction to Apache Spark

この初心者向けのコースでは、大規模なデータ処理のための Apache Spark の基礎について説明します。 Spark の分散アーキテクチャを探索し、DataFrame API をマスターし、Python を使用してデータの読み取り、書き込み、処理する方法を学習します。実践的な演習を通じて、Sparkの変換とアクションを効率的に実行するために必要なスキルを身に付けます。

Developing Applications with Apache Spark

このハンズオンコースでは、Apache Spark を使用したスケーラブルなデータ処理を習得します。 Spark の DataFrame API を使用して、効率的な ETL パイプラインを構築し、高度な分析を実行し、分散データ変換を最適化する方法を学びます。グループ化、集計、結合、集合演算、ウィンドウ関数について調べます。配列、マップ、構造体などの複雑なデータ型を操作しながら、パフォーマンス最適化のベストプラクティスを適用します。

Stream Processing and Analysis with Apache Spark

このコースでは、Apache Spark を使用したストリーム処理と解析の基本について学習します。ストリーム処理の基礎をしっかりと理解し、Spark 構造化ストリーミング API を使用してアプリケーションを開発します。ストリーム集約やウィンドウ分析などの高度な手法を探索して、リアルタイムデータを効率的に処理します。このコースでは、動的データ環境向けにスケーラブルでフォールトトレラントなストリーミングアプリケーションを作成するスキルを身に付けます。

Monitoring and Optimizing Apache Spark Workloads on Databricks

このコースでは、セキュアなデータガバナンス、アクセスコントロール、リネージトラッキングのためのUnity Catalogを中心に、スケーラブルなデータワークフローのためのレイクハウスアーキテクチャとメダリオン設計を探求します。カリキュラムには、Delta Lakeを使用した信頼性の高いACID準拠のパイプラインの構築も含まれます。パーティショニング、キャッシング、クエリチューニングなどのSpark最適化テクニックを検証し、パフォーマンスモニタリング、トラブルシューティング、効率的なデータエンジニアリングとアナリティクスのベストプラクティスを学び、現実世界の課題に取り組みます。

Languages Available: English | 日本語 | 한국어

Skill Level

Associate

Duration

16h

Prerequisites

プログラミングの基礎知識
Pythonに精通していること
SQLクエリ(SELECT、JOIN、GROUP BY)の基本的な理解
データ処理の概念に関する知識
Spark または Databricks の経験を持つ開発者によるアプリケーションの開発が必要です

Outline

Introduction to Apache Spark

Spark ランタイムアーキテクチャ
Apache Spark アーキテクチャの探索 Databricks
Spark の概要 DataFrames と SQL
読み書き DataFrames を使用したデータ
分散システムプログラミング基礎
基本的な ETL と DataFrame API
DataFrame API を使用したフライトデータ ETL
DataFrames を使用したトランザクションデータの分析

Developing Applications with Apache Spark

DataFrame API の基本
(オプション)DataFrame API を使用した基本的な ETL
グループ化とデータの集計
グループ化とデータの集計
グループ化と集約電子商取引データ
リレーショナル演算
データリレーショナル Apache Spark での操作
複雑なデータの操作
Apache Spark での複雑なデータ型の操作
複合データ型の操作電子商取引データ

Stream Processing and Analysis with Apache Spark

ストリーム処理の概要
Spark 構造化ストリーミング
Spark の概要構造化ストリーミング
Spark の概要構造化ストリーミング
高度なストリーム処理と分析
Spark Structured Streaming におけるウィンドウ集計ストリーミング
Spark Structured Streaming におけるウィンドウ集計ストリーミング

Monitoring and Optimizing Apache Spark Workloads on Databricks

Apache SparkとDatabricks
Delta LakeでApache Sparkを使う
デモ: Delta Lakeの紹介
ラボ: Delta Lakeの紹介
Apache Sparkの最適化
デモ: Apache Sparkの最適化
ラボ: Apache Sparkの最適化

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Customer registration Partner registration

Private Class Request

If your company is interested in private training, please submit a request.

Request Private Training

See all our registration options

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

今すぐ登録

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

今すぐ登録

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Building ETL Pipelines with SQL - Japanese

このコースでは、Databricks Data Intelligence Platform で純粋な SQL を使用して、本番運用に対応した ETL パイプラインを構築する方法を学びます。受講者は、増分インジェストのための Auto Loader を使用したストリーミングテーブル、Silver-to-Gold 変換のための増分更新を伴うマテリアライズドビュー、宣言型 SCD タイプ 1 およびタイプ 2 ディメンション管理のための AUTO CDC (FLOW AUTO CDC)、および本番オーケストレーションのための SQL ファイルタスクを使用した Lakeflow ジョブについて学習します。このコースでは、メダリオンアーキテクチャ(ブロンズ → シルバー → ゴールド)を通じて、現実的な小売データセットに従います。

注記：Databricks Academyでは、Databricks環境内での教室セッションをノートブック形式に移行し、講義用スライドデッキの使用を終了します。講義ノートブックはVocareumラボ環境でアクセス可能です。

Machine Learning Practitioner

Building Single-Agent Applications on Databricks - Japanese

本コースでは、Databricks Data Intelligence Platform上で単一エージェントアプリケーションを構築するための実践的なトレーニングを提供します。受講者は、Unity Catalogの機能をツールとして活用するAIエージェントの作成、MLflowによる包括的なトレースとモニタリングの実装、LangChainのような従来型frameworksとAgent Bricksのような最新ソリューションの両方を使用したエージェントのデプロイ方法を学びます。コースでは、AI Playgroundでの初期ツール作成とテストから、ガバナンス、評価、継続的改善機能を備えた本番環境へのデプロイまで、エージェントのライフサイクル全体を網羅します。

Languages Available: English | 日本語 | Português BR | 한국어

Automated Deployment with Declarative Automation Bundles - Japanese

本コースでは、DevOpsの原則と、Databricks projectsへのその適用について包括的に解説します。まず、DevOps、DataOps、継続的インテグレーション（CI）、継続的デプロイメント（CD）、およびテストの概要から始まり、これらの原則をデータエンジニアリングパイプラインにどのように適用できるかを掘り下げます。

続いて、CI/CDプロセスにおける継続的デプロイメントに焦点を当て、プロジェクトのデプロイメントに利用できるDatabricks REST API、SDK、CLIなどのツールについて解説します。Declarative Automation Bundles（DAB）について、またそれらがCI/CDプロセスにどのように組み込まれるかを学びます。DABの主要な構成要素やフォルダ構造、そしてDatabricks内のさまざまなターゲット環境へのデプロイをどのように効率化するかを詳しく掘り下げます。また、Databricks CLIを使用して、異なる構成を持つ複数の環境向けに、変数の追加、修正、検証、デプロイ、およびDeclarative Automation Bundlesの実行を行う方法についても学びます。

最後に、本コースでは、Declarative Automation Bundleをローカルでビルド、テスト、デプロイするためのインタラクティブ開発環境（IDE）としてVisual Studio Codeを紹介し、開発プロセスの最適化を図ります。コースの最後には、GitHub Actionsを使用したデプロイパイプラインの自動化について解説し、Declarative Automation Bundleを活用したCI/CDワークフローの強化について紹介します。

このコースを修了する頃には、Declarative Automation Bundles を使用して Databricks projectのデプロイを自動化できるようになり、DevOps の実践を通じて効率を向上させることができるようになります。

Languages Available: English | 日本語 | Português BR | 한국어