メインコンテンツへジャンプ
<
ページ 4
>

集まれ!Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています!できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください! さて、今回はVol.6として満を持して登場、 アマゾン ウェブ サービス ジャパン合同会社 本橋 和貴 様 をご紹介します。 —- 以前にご紹介したLegendary...

大手金融機関がデータブリックスを採用したワケは

October 12, 2023 Hisae Inoue による投稿 in Databricks ブログ
去る6月28日、サンフランシスコで開催されたDATA+AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData+AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit) - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。...

集まれ!Legendary Heroes of DATA + AI !! Vol 5

August 9, 2023 Hisae Inoue による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 5として、前回のVol4 に引き続き 株式会社ナレッジコミュニケーション様 から 山川 将也 様 をご紹介します。 —- 以前にご紹介したLegendary...

意外に知られていないDatabricksワークフローの活用方法

August 7, 2023 Takaaki Yayoi による投稿 in データエンジニアリング
Databricksには Databricksワークフロー という機能があります。 Databricksノートブック で開発したロジックを簡単にスケジュール処理にすることができます。 しかし、Databricksジョブの機能はスケジュール処理だけではありません。以下のように多彩な機能を提供しており、さまざまなユースケースで活躍します。本記事では、Databricksワークフロー、特にDatabricksジョブのさまざまな機能や活用方法をご説明します。 Databricksワークフローとは Databricksワークフローは、Databricksレイクハウスプラットフォームでデータ処理、機械学習、分析パイプラインをオーケストレートします。ワークフローには、Databricksワークスペースで画面の操作を伴わないコードを実行するためのDatabricksジョブ、高信頼かつ維持可能なETLパイプラインを構築するためのDelta Live Tablesが統合されたフルマネージドのオーケストレーションサービスを提供します。

構造化ストリーミングにおける複数のステートフルオペレーター

翻訳:Junichi Maruyama. - Original Blog Link データエンジニアリングの世界では、ETLが誕生したときから使われているオペレーションがある。フィルターする。結合する。集約する。最後に結果を書く。これらのデータ操作は時代が変わっても変わりませんが、レイテンシーとスループットの要求範囲は劇的に変化しています。一度に数イベントを処理したり、1日に数ギガバイトを処理したりすることは、もはや不可能です。今日のビジネス要件を満たすには、テラバイト、あるいはペタバイトのデータを毎日処理する必要があり、そのレイテンシは分単位、秒単位で測定されます。 Apache SparkTMの構造化ストリーミングは、大容量データと低レイテンシに最適化されたオープンソースの主要ストリーム処理エンジンであり、 Databricks Lakehouse を ストリーミングに最適なプラットフォー ムとするコアテクノロジーです。 Project Lightspeed で提供される強化された機能のおかげで、単一のストリ