メインコンテンツへジャンプ
<
ページ 6
>

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳: junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。 組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0   (翻訳: junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

集まれ!Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか? Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います!! さて、最終回のVol.3 では、 日本マイクロソフト 中里 浩...

PySparkでのメモリプロファイリング

Original Blog : Memory Profiling in PySpark 翻訳: junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます( 詳細を見る )しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

Apache Spark™ 3.2 の概要

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。 月間のダウンロード数は 2,000万 に達し、対前年比では 2 倍の成長率を示しています。Spark...