エンジニアリングのブログ

ページ 7

UnityカタログにLakehouseフェデレーション機能を導入

June 28, 2023 Matei Zaharia、Andrew Li、カン・エフェオグル、Cyrielle Simeone、サチン・タクールによる投稿 in プラットフォームブログ

翻訳: Masahiko Kitamura オリジナル記事: Introducing Lakehouse Federation Capabilities in Unity Catalog データチームは、データの断片化、データの統合にかかる時間とコスト、多数のシステムにわたるデータガバナンスの管理の難しさなどが主な原因で、適切なデータに素早くアクセスするために多くの課題に直面しています。そのため、本日 Data+AI Summit で、組織が統一されたガバナンスを備えた、拡張性とパフォーマンスの高いデータメッシュアーキテクチャを構築できるUnity CatalogのLakehouse Federation機能を発表できることを嬉しく思います。 Unity Catalog は、データとAIのための統合ガバナンスソリューションを提供します。Unity CatalogのLakehouseフェデレーション機能により、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure...

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 8, 2023 Silvio Fiorito による投稿 in データエンジニアリング

翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

Apache ParquetデータレイクをDelta Lakeにシームレスに移行する

June 7, 2023 ディパンカル・クシャリ、Uday Satapathy による投稿 in エンジニアリングのブログ

Original: Seamlessly Migrate Your Apache Parquet Data Lake to Delta Lake 翻訳: junichi.maruyama Apache Parquet は、今日のビッグデータの世界で最も人気のあるオープンソースのファイルフォーマットの1つです。列指向であるApache Parquetは、データの保存と検索を効率的に行うことができるため、過去10年間に多くの企業がデータレイクにおけるデータ保存の必須方法として採用しました。中には、Apache Parquetファイルを「データベーステーブル」として利用し、CRUD操作を行う企業もあります。しかし、Apache Parquetファイルは単なるデータファイルであり、トランザクションロギング、統計収集、インデックス作成機能を持たないため、ACIDに準拠したデータベース操作には適していません。このようなツールの構築は、膨大な数の開発チームが独自に開発し、それを維持する必要があるため、途方もない作業です。その結

構造化ストリーミングにおける適応的なクエリの実行

June 2, 2023 Steven Chen、MaryAnn Xue、イム・ジョンテクによる投稿 in エンジニアリングのブログ

Original: Adaptive Query Execution in Structured Streaming 翻訳: junichi.maruyama Databricks Runtimeでは、 Adaptive Query Execution (AQE) は、クエリ実行中にランタイム統計を使用してバッチクエリを継続的に再適正化するパフォーマンス機能です。Databricks Runtime 13.1以降、 ForeachBatch Sinkを使用するリアルタイムストリーミングクエリも、 Project Lightspeed の一環として、AQEを活用して動的再最適化を行います。...

一部の地域でDatabricks SQL Serverlessの一般利用開始を発表します！

May 23, 2023 Cyrielle Simeone、Shant Hovsepian、ガウラヴ・サラフによる投稿 in プラットフォームブログ

Original: Announcing the General Availability of Databricks SQL Serverless ! 翻訳: saki.kitaoka 本日、AWSおよびAzureの一部地域でDatabricks SQLのサーバーレスコンピューティングが一般利用可能になったことを発表することを大変嬉しく思います！ Databricks SQL (DB SQL) サーバーレスは、インスタントでエラスティックなコンピューティングによる最高のパフォーマンスを提供し、コストを削減し、インフラの管理ではなくビジネスへの最大の価値提供に注力できるようにします。GA（一般提供）により、Databricksからの最高レベルの安定性、サポート、エンタープライズ対応を、Databricks Lakehouse Platform上のミッションクリティカルなワークロードに対して期待することができます。このブログ記事では、DB SQL...

Apache Spark Structured Streamingでレイテンシが1秒未満になりました

May 15, 2023 Jerry Peng、Pranav Anand、Sourav Gulati、Karthik Ramasamy、Michael Armbrust、Matei Zaharia による投稿 in エンジニアリングのブログ

Original: Latency goes subsecond in Apache Spark Structured Streaming 翻訳: saki.kitaoka Apache Spark Structured Streaming は、オープンソースのストリーム処理プラットフォームの代表格です。 the Databricks Lakehouse Platform のストリーミングを支える中核技術でもあり、バッチ処理とストリーム処理のための統一APIを提供しています。ストリーミングの採用が急速に進む中、多様なアプリケーションがストリーミングを活用してリアルタイムな意思決定を行いたいと考えています。これらのアプリケーションのうち、特に運用型のアプリケーションでは、より低いレイテンシーが要求されます。Sparkの設計は、高いスループットと使いやすさを低コストで実現する一方で、サブセカンドレイテンシーに最適化されていません。本ブログでは、Structured Streamingの固有の処理レイテンシーを低減す

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

May 10, 2023 Vinny Vijeyakumaar による投稿 in エンジニアリングのブログ

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳： junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない！スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Delta Lakeとの統合でデータエコシステムを統一する

May 9, 2023 Itai Yaffe、リラン・バレケットによる投稿 in エンジニアリングのブログ

Original : Unifying Your Data Ecosystem with Delta Lake Integration 翻訳： junichi.maruyama 組織がデータインフラを成熟させ、データレイクにこれまで以上に多くのデータを蓄積していく中で、Delta Lakeのようなオープンで信頼性の高いテーブルフォーマットは非常に必要になってきます。すでに何千もの企業が本番でDelta Lakeを使用しており、（2022年6月に発表された） Delta Lakeのすべてをオープンソース化したことで、さまざまなドメインや垂直方向での採用がさらに進んでいます。それらの企業の多くは、Databricksとその他のデータおよびAIフレームワーク（Power BI、Trino、Flink、Spark on Kubernetesなど）の両方を技術スタックの一部として使用しているため、それらすべてのフレームワークを使用してDelta...

Terraform Databricksのモジュールを発表

May 4, 2023 Yassine Essawabi、Hao Wang、Alex Ott による投稿 in エンジニアリングのブログ

Original: Announcing Terraform Databricks modules 翻訳: junichi.maruyama Databricks Terraformプロバイダーは1,000万インストールを突破し、一般提供開始後1年未満で大幅に採用が増えました。この重要なマイルストーンはTerraformとDatabricksプロバイダーが、Lakehouse Platformのインフラ展開と管理を自動化するために、多くのお客様に広く利用されていることを示すものです。インフラの維持、管理、拡張を容易にするために、DevOpsチームはTerraform モジュールと呼ばれるモジュール化された再利用可能なコンポーネントを使用してインフラを構築します。Terraformモジュールによって、複数のユースケースや環境にわたって同じコンポーネントを簡単に再利用することができます。また、組織全体でリソースを定義し、ベストプラクティスを採用するという標準的なアプローチを強制することができます。一貫性に

Databricksクラスタinitスクリプトの安全化

May 2, 2023 Elia Florio、 Florian Roth、Marius Bartholdy による投稿 in エンジニアリングのブログ

This blog was co-authored by Elia Florio, Sr. Director of Detection & Response at Databricks and Florian Roth and Marius Bartholdy, security researchers...