データエンジニアリング

ページ 2

Spark ConnectにおけるPythonの依存関係の管理方法

November 14, 2023 Hyukjin Kwon、鄭瑞鳳による投稿 in エンジニアリングのブログ

分散コンピューティング環境におけるアプリケーションの環境管理は難しい。すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesのようなスクリプトオプションや、 spark.jars.*のようなSparkコンフィギュレーションをサブミットする方法と同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。依存関係は静的にしか追加できず、実行中に変更することはできない。つまり、Driverを起動する前に必ず依存関係を設定する必要がある。この問題に対処するため、Apache Spark 3.5.0か

SQL関数の名前付き引数

November 13, 2023 ダニエル・テネドリオ、シンイ・ユー、アリソン・ワン、Wenchen Fan、セルジュ・リロー、リチャード・ユーによる投稿 in エンジニアリングのブログ

本日は、SQL関数で名前付き引数を利用できるようになったことを紹介します。この機能を使えば、より柔軟な方法で関数を呼び出すことが可能になります。このブログでは、まずこの機能がどのようなものかを紹介し、次にSQLユーザー定義関数（UDF）のコンテキストで何ができるかを示し、最後に組み込み関数でどのように機能するかを探ります。まとめると、名前付き引数はSQLのヘビーユーザーにとってもライトユーザーにとっても、作業を容易にする新しい便利な方法です。名前付き引数とは何か？多くのプログラミング言語では、関数定義に1つ以上の引数のデフォルト値を含めることができます。例えば、Pythonでは次のようなメソッドを定義できます： def botw(x, y = 6, z = 7): return x * y + z ユーザーがこの機能を呼び出したい場合、次のように選択できます： botw(5...

Python ユーザー定義テーブル関数（UDTFs）の紹介

November 7, 2023 アリソン・ワン、ダニエル・テネドリオ、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Apache Spark™ 3.5とDatabricks Runtime 14.0は、エキサイティングな機能をもたらした：Pythonのユーザー定義テーブル関数（UDTFs）です。このブログでは、UDTFとは何か、なぜUDTFは強力なのか、そしてどのようにUDTFを使うことができるのかについて説明する。 Pythonのユーザー定義テーブル関数（UDTF）とは？ Pythonのユーザー定義テーブル関数（UDTF）は、出力として単一のスカラー結果値の代わりにテーブルを返す新しい種類の関数です。一度登録されると、SQLクエリの FROM 句に登場させることができる。各Python UDTFは0個以上の引数を受け入れ、各引数は整数や文字列のような定数スカラー値である。関数本体は、これらの引数の値を調べて、どのデータを返すべきかを決定することができる。 PythonのUDTFを使うべき理由要するに、複数の行や列を生成する関数が必要で、Pythonの豊富なエコシステムを活用したいのであれば、Python UDTFが

Apache Spark™ 3.5におけるArrowに最適化されたPython UDF

November 6, 2023 Xinrong Meng、Hyukjin Kwon、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Apache Spark™では、Pythonのユーザー定義関数（UDF）は最も人気のある機能の1つです。ユーザーは、独自のデータ処理ニーズに合わせてカスタムコードを作成することができる。しかし、シリアライズとデシリアライズのためにcloudpickleに依存している現在のPython UDFは、特に大きなデータの入出力を扱うときに、パフォーマンスのボトルネックに遭遇する。 Apache Spark 3.5と Databricks Runtime 14.0では、Arrowに最適化されたPython UDFを導入し、パフォーマンスを大幅に改善しました。この最適化の核となるのが、標準化された言語横断的なカラム型インメモリデータ表現である Apache Arrow である。 Arrowを利用することで、これらのUDFは、従来の遅いデータ（デ）シリアライゼーションの方法をバイパスし、JVMとPythonプロセス間の迅速なデータ交換をもたらします。 Apache Arrowの豊富な型システムにより、これらの最適化され

集まれ！Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください！さて、今回はVol.6として満を持して登場、アマゾンウェブサービスジャパン合同会社本橋和貴様をご紹介します。 —- 以前にご紹介したLegendary...

大手金融機関がデータブリックスを採用したワケは

October 12, 2023 [email protected] による投稿 in Databricks ブログ

去る6月28日、サンフランシスコで開催されたDATA＋AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData＋AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート（6/27 Partner Summit） - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...

集まれ！Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 5として、前回のVol4 に引き続き株式会社ナレッジコミュニケーション様から山川将也様をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in データエンジニアリング

Databricksには Databricksワークフローという機能があります。 Databricksノートブックで開発したロジックを簡単にスケジュール処理にすることができます。しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

August 7, 2023 Angela Chu、イム・ジョンテクによる投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse をストリーミングに最適なプラットフォームとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 29, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...