メインコンテンツへジャンプ
ページ 1
Industries category icon 1

製造業における洞察:低レイテンシーのセンサーデータでのストリーミング積分の計算

January 10, 2024 TJサイコタバラト・ペリヤサミー による投稿 in 業界
データエンジニアは、複雑でノイズの多いデータから洞察を引き出すために、数学と統計学に頼っています。 最も重要な領域は微積分です。微積分では、積分(最も一般的には曲線下の面積を計算すること)が得られます。 これは、レートを表す多くのデータを統合して有用な測定値を生成できるため、エンジニアにとって便利です。 例えば ポイント・イン・タイムのセンサーの測定値は、一度統合されると、 時間加重平均 を生成することができます。 車両速度の積分は、 移動距離 の計算に使用できます。 データ転送量 は、ネットワーク転送速度を統合したものです。 もちろん、ほとんどの生徒はある時点で積分の計算方法を学びますし、計算自体もバッチで静的なデータでは簡単です。 しかし、機器のパフォーマンスしきい値に基づくアラートの設定や、ロジスティクスのユースケースにおける異常の検出など、ビジネス価値を実現するために低レイテンシーで増分的な積分計算を必要とする一般的なエンジニアリングパターンがあります。 ポイント・イン・タイム測定: 計算に使用される積分
Industries category icon 2

MapInPandasとDelta Live Tablesで一般的でないファイル形式を大規模に処理する

August 24, 2023 TJサイコタ による投稿 in 業界
翻訳:Junichi Maruyama. - Original Blog Link 様々なファイル形式 最新のデータエンジニアリングの世界では、 Databricks Lakehouse Platform は信頼性の高いストリーミングおよびバッチ data pipelines の構築プロセスを簡素化します。しかし、曖昧なファイル形式や一般的でないファイル形式を扱うことは、Lakehouseへのデータ取り込みにおいて依然として課題となっています。データを提供する上流のチームは、データの保存と送信方法を決定するため、組織によって標準が異なります。例えば、データエンジニアは、スキーマの解釈が自由なCSVや、ファイル名に拡張子がないファイル、独自のフォーマットでカスタムリーダーが必要なファイルなどを扱わなければならないことがあります。このデータをParquetで取得できないかとリクエストするだけで問題が解決することもあれば、パフォーマンスの高いパイプラインを構築するために、よりクリエイティブなアプローチが必要になることも