メインコンテンツへジャンプ
<
ページ 18
>

集まれ!Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか? Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います!! さて、最終回のVol.3 では、 日本マイクロソフト 中里 浩...

PySparkでのメモリプロファイリング

Original Blog : Memory Profiling in PySpark 翻訳: junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます( 詳細を見る )しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

Apache Spark™ 3.2 の概要

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。 月間のダウンロード数は 2,000万 に達し、対前年比では 2 倍の成長率を示しています。Spark...

空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法

この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。 このブログでは、オードナンス・サーベイ(Ordnance Survey、英国陸地測量部)、データブリックス、Microsoft が共同で取り組む British National Grid(BNG)を用いた空間分割について解説します。 オードナンス・サーベイは、 公共部門地理空間協定 (Public Sector Geospatial...