メインコンテンツへジャンプ
<
ページ 6
>

Apache Sparkのための新しいプログラミング言語としての「英語」

翻訳: Masahiko Kitamura オリジナル記事: Introducing English as the New Programming Language for Apache Spark はじめに 私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します! 動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

集まれ!Legendary Heroes of DATA + AI !! Vol 4 

June 29, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 4として、 株式会社ナレッジコミュニケーション 小山 翼 様 をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

UnityカタログにLakehouseフェデレーション機能を導入

翻訳: Masahiko Kitamura オリジナル記事: Introducing Lakehouse Federation Capabilities in Unity Catalog データチームは、データの断片化、データの統合にかかる時間とコスト、多数のシステムにわたるデータガバナンスの管理の難しさなどが主な原因で、適切なデータに素早くアクセスするために多くの課題に直面しています。 そのため、本日 Data+AI Summit で、組織が統一されたガバナンスを備えた、拡張性とパフォーマンスの高いデータメッシュアーキテクチャを構築できるUnity CatalogのLakehouse Federation機能を発表できることを嬉しく思います。 Unity Catalog は、データとAIのための統合ガバナンスソリューションを提供します。Unity CatalogのLakehouseフェデレーション機能により、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure...

Delta Live Tablesを用いたサイバーセキュリティのレイクハウス向けETLパイプラインの構築

June 8, 2023 Silvio Fiorito による投稿 in データエンジニアリング
翻訳: Masahiko Kitamura オリジナル記事: Building ETL pipelines for the cybersecurity lakehouse with Delta Live Tables Databricksはこのほど、データエンジニア、データサイエンティスト、アナリストが、複雑なインフラを管理することなく、あらゆるクラウド上で信頼性の高いデータ、分析、MLワークフローを構築できるようにする Workflows を発表しました。Workflowsでは、 Delta Live Tables を使用して、インジェストやリネージを含む自動管理されたETLパイプラインを構築することができます。ワークフローとDelta Live...

Apache ParquetデータレイクをDelta Lakeにシームレスに移行する

Original: Seamlessly Migrate Your Apache Parquet Data Lake to Delta Lake 翻訳: junichi.maruyama Apache Parquet は、今日のビッグデータの世界で最も人気のあるオープンソースのファイルフォーマットの1つです。列指向であるApache Parquetは、データの保存と検索を効率的に行うことができるため、過去10年間に多くの企業がデータレイクにおけるデータ保存の必須方法として採用しました。中には、Apache Parquetファイルを「データベーステーブル」として利用し、CRUD操作を行う企業もあります。しかし、Apache Parquetファイルは単なるデータファイルであり、トランザクションロギング、統計収集、インデックス作成機能を持たないため、ACIDに準拠したデータベース操作には適していません。このようなツールの構築は、膨大な数の開発チームが独自に開発し、それを維持する必要があるため、途方もない作業です。その結

構造化ストリーミングにおける適応的なクエリの実行

Original: Adaptive Query Execution in Structured Streaming 翻訳: junichi.maruyama Databricks Runtimeでは、 Adaptive Query Execution (AQE) は、クエリ実行中にランタイム統計を使用してバッチクエリを継続的に再適正化するパフォーマンス機能です。Databricks Runtime 13.1以降、 ForeachBatch Sinkを使用するリアルタイムストリーミングクエリも、 Project Lightspeed の一環として、AQEを活用して動的再最適化を行います。...

一部の地域でDatabricks SQL Serverlessの一般利用開始を発表します!

Original: Announcing the General Availability of Databricks SQL Serverless ! 翻訳: saki.kitaoka 本日、AWSおよびAzureの一部地域でDatabricks SQLのサーバーレスコンピューティングが一般利用可能になったことを発表することを大変嬉しく思います! Databricks SQL (DB SQL) サーバーレスは、インスタントでエラスティックなコンピューティングによる最高のパフォーマンスを提供し、コストを削減し、インフラの管理ではなくビジネスへの最大の価値提供に注力できるようにします。GA(一般提供)により、Databricksからの最高レベルの安定性、サポート、エンタープライズ対応を、Databricks Lakehouse Platform上のミッションクリティカルなワークロードに対して期待することができます。 このブログ記事では、DB SQL...

Apache Spark Structured Streamingでレイテンシが1秒未満になりました

Original: Latency goes subsecond in Apache Spark Structured Streaming 翻訳: saki.kitaoka Apache Spark Structured Streaming は、オープンソースのストリーム処理プラットフォームの代表格です。 the Databricks Lakehouse Platform のストリーミングを支える中核技術でもあり、バッチ処理とストリーム処理のための統一APIを提供しています。ストリーミングの採用が急速に進む中、多様なアプリケーションがストリーミングを活用してリアルタイムな意思決定を行いたいと考えています。これらのアプリケーションのうち、特に運用型のアプリケーションでは、より低いレイテンシーが要求されます。Sparkの設計は、高いスループットと使いやすさを低コストで実現する一方で、サブセカンドレイテンシーに最適化されていません。 本ブログでは、Structured Streamingの固有の処理レイテンシーを低減す

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳: junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない!スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。 一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Delta Lakeとの統合でデータエコシステムを統一する

Original : Unifying Your Data Ecosystem with Delta Lake Integration 翻訳: junichi.maruyama 組織がデータインフラを成熟させ、データレイクにこれまで以上に多くのデータを蓄積していく中で、Delta Lakeのようなオープンで信頼性の高いテーブルフォーマットは非常に必要になってきます。 すでに何千もの企業が本番でDelta Lakeを使用しており、(2022年6月に発表された) Delta Lakeのすべてをオープンソース化 したことで、さまざまなドメインや垂直方向での採用がさらに進んでいます。 それらの企業の多くは、Databricksとその他のデータおよびAIフレームワーク(Power BI、Trino、Flink、Spark on Kubernetesなど)の両方を技術スタックの一部として使用しているため、それらすべてのフレームワークを使用してDelta...