データエンジニアリング

ページ 3

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 8, 2023 Silvio Fiorito による投稿 in データエンジニアリング

翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

Apache ParquetデータレイクをDelta Lakeにシームレスに移行する

June 7, 2023 ディパンカル・クシャリ、Uday Satapathy による投稿 in エンジニアリングのブログ

Original: Seamlessly Migrate Your Apache Parquet Data Lake to Delta Lake 翻訳: junichi.maruyama Apache Parquet は、今日のビッグデータの世界で最も人気のあるオープンソースのファイルフォーマットの1つです。列指向であるApache Parquetは、データの保存と検索を効率的に行うことができるため、過去10年間に多くの企業がデータレイクにおけるデータ保存の必須方法として採用しました。中には、Apache Parquetファイルを「データベーステーブル」として利用し、CRUD操作を行う企業もあります。しかし、Apache Parquetファイルは単なるデータファイルであり、トランザクションロギング、統計収集、インデックス作成機能を持たないため、ACIDに準拠したデータベース操作には適していません。このようなツールの構築は、膨大な数の開発チームが独自に開発し、それを維持する必要があるため、途方もない作業です。その結

Delta Lakeとの統合でデータエコシステムを統一する

May 9, 2023 Itai Yaffe、リラン・バレケットによる投稿 in エンジニアリングのブログ

Original : Unifying Your Data Ecosystem with Delta Lake Integration 翻訳： junichi.maruyama 組織がデータインフラを成熟させ、データレイクにこれまで以上に多くのデータを蓄積していく中で、Delta Lakeのようなオープンで信頼性の高いテーブルフォーマットは非常に必要になってきます。すでに何千もの企業が本番でDelta Lakeを使用しており、（2022年6月に発表された） Delta Lakeのすべてをオープンソース化したことで、さまざまなドメインや垂直方向での採用がさらに進んでいます。それらの企業の多くは、Databricksとその他のデータおよびAIフレームワーク（Power BI、Trino、Flink、Spark on Kubernetesなど）の両方を技術スタックの一部として使用しているため、それらすべてのフレームワークを使用してDelta...

Terraform Databricksのモジュールを発表

May 4, 2023 Yassine Essawabi、Hao Wang、Alex Ott による投稿 in エンジニアリングのブログ

Original: Announcing Terraform Databricks modules 翻訳: junichi.maruyama Databricks Terraformプロバイダーは1,000万インストールを突破し、一般提供開始後1年未満で大幅に採用が増えました。この重要なマイルストーンはTerraformとDatabricksプロバイダーが、Lakehouse Platformのインフラ展開と管理を自動化するために、多くのお客様に広く利用されていることを示すものです。インフラの維持、管理、拡張を容易にするために、DevOpsチームはTerraform モジュールと呼ばれるモジュール化された再利用可能なコンポーネントを使用してインフラを構築します。Terraformモジュールによって、複数のユースケースや環境にわたって同じコンポーネントを簡単に再利用することができます。また、組織全体でリソースを定義し、ベストプラクティスを採用するという標準的なアプローチを強制することができます。一貫性に

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

April 25, 2023 Uday Satapathy、ディパンカル・クシャリ、Akash Jaiswal による投稿 in エンジニアリングのブログ

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳： junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

April 13, 2023 Xinrong Meng、ダニエル・テネドリオ、マーティン・グルンド、アラン・フォルティング、Hyukjin Kwon、ヘルマン・ファン・ヘーベル、Wenchen Fan、Ying Xiong、イム・ジョンテク、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0 　 (翻訳： junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

PySparkでのメモリプロファイリング

November 30, 2022 Xinrong Meng、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Original Blog : Memory Profiling in PySpark 翻訳： junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます（詳細を見る）しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

データレイクハウスによるリアルタイムPOS分析

September 9, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大