Databricks Asset Bundles(DABs)のGA(General Availability)を発表できることを嬉しく思います。
DABsを利用することで、ジョブ、パイプライン、ノートブックなどのリソースを簡単にまとめて、プロジェクトを一つの単位としてバージョン管理、テスト、デプロイ、共同作業ができます。DABsはDatabricksプラットフォームでのデータとAIプロジェクトにおけるソフトウェアエンジニアリングのベストプラクティスを取り入れるための強力なサポートを提供します。また、すべてのデータ資産をコードとして扱い、ソースコントロール、コードレビュー、テスト、継続的インテグレーションおよびデリバリー(CI/CD)をスムーズに行えるよう支援します。すでに数百の顧客が本番環境でDABsを使用している今、この機能をすべての顧客に提供できることを楽しみにしています。
コラボレーションと自動化の強化:プロジェクト向けDABsの活用
DABsは、データとAIプロジェクトを記述するシンプルで宣言的な形式を提供します。この形式を利用することで、データエンジニア、データサイエンティスト、AI開発者は、プロジェクトの構成、テスト、デプロイメント方法を一元的に定義したソースファイルとして、データとAIプロジェクトを表現できます。これにより、開発が活発な段階でのプロジェクトの共同作業が容易になるだけでなく、組織のテンプレートやGit、CI/CD(GitHub Actions、Jenkins、Azure DevOpsなど)を使用した管理がより効率的に行えるようになります。
どのように機能するのか?
DABsは、ソースコードとともに作成・保守されるように設定・定義され、管理されます。これによって、プロジェクト全体をソースコードで定義することが可能になります。カスタムDABテンプレートを利用することで、デフォルトの権限、サービスプリンシパル、CI/CD設定を含む新しいプロジェクトの組織基準を設定することができます。
例えば、ジョブとノートブックを含むプロジェクトがあり、開発環境でアップデートをテストし、本番環境への影響を避けたいとします。DABsを使用すると、本番環境だけでなく、同僚が作業中の開発コピーからも変更を隔離する開発ターゲットを定義できます。変更内容に満足したら、手動または自動化されたCI/CDシステムを介して本番にデプロイ可能です。
バンドルを使用することで、ジョブ、MLサービングエンドポイント、パイプラインなどのDatabricks資産のバージョン管理された履歴を保持し、変更を一貫してテスト可能な方法で制御できます。これは、コンプライアンス基準の一貫性が求められる規制された業界での変更管理ガバナンスを支援する上で特に重要です。
DABは、手動またはテンプレートに基づいて作成されます。Databricks CLIは簡単なユースケース向けのデフォルトテンプレートを提供していますが、より特定または複雑なシナリオには、チームのベストプラクティスを実装し、共通の設定を統一するカスタムバンドルテンプレートを作成 することができます。
今後の展望
今後、DABsに関連する興奮する新機能の開発に取り組んでいきます。例えばワークスペース内でのDABsの作成、Pythonで完全に行うDABs(PyDABs)、DABsのIDEサポート、Lakeviewダッシュボードを含むすべてのDatabricks資産のサポート追加などを予定しています。
パイプライン、実験、プロジェクトの構築にDABsの活用をぜひ始めてみてください。詳細は、当社のドキュメントを参照してください。
皆さんがDatabricks Asset Bundlesを使って、データ、分析、AIプロジェクトを管理し、自動化する創造的かつ効果的な方法を見つけることを楽しみにしています。
Databricks Asset Bundlesの使用開始は以下の簡単なステップで行えます:
- Homebrewを使用して最新のCLIをインストール:
brew tap databricks/tap; brew install databricks
- Databricksへ認証:
databricks configure
- 最初のバンドルを作成しカスタマイズ:
databricks bundle init
- 開発ワークスペースへのプロジェクトの検証とデプロイ:
databricks bundle validate; databricks bundle deploy