メインコンテンツへジャンプ
<
ページ 60
>

Databricks Repos 一般公開、Files の新機能も一般プレビュー

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

時系列予測ライブラリ Prophet と Spark との連携

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。 このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収 しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Terraform による Databricks ワークスペースの環境構築(AWS 編)

September 29, 2021 Masahiko Kitamura による投稿 in
Databricks ワークスペースは、1 つの独立した Databricks 環境を提供します。 そのため、要件によっては複数のワークスペースを同時に作成・運用するケースもあります。 こうした状況では、Databricks ワークスペースを Code として管理(IaC)し、自動化することで運用がスムーズになります。 Databricks では、運用現場で求められる機能をツールとして提供する Labs Project の一環で、 Databricks Terraform Provider を公開しています。 このドキュメントでは、Terraform を用いて AWS 上に...

臨床データによる腫瘍学の知見抽出に NLP を活用

このブログで参照しているソリューションアクセラレータのノートブックは、 オンライン でご参照いただくか、ノートブックを ダウンロード してお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。 米国における 死亡原因 および疾病原因の第 1 位は悪性腫瘍(がん)です。その数は驚異的で、今年、米国では新たに診断される がん患者は約 200 万人 になると予想されています。また、米国における医療費は、悪性腫瘍(がん)に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によって およそ...

Part 1:Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

ブログ内に掲載されているコードの詳細は、 こちら からご覧ください。 このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD(継続的インテグレーション/継続的デリバリ)フレームワークについて解説します。継続的インテグレーション(CI)は Microsoft Azure DevOps のエコシステムと、継続的デリバリ(CD)は...

アシュリオン社、レイクハウスでビッグデータのための ETL 導入 – データマート設計など

September 16, 2021 Tomasz Magdanski による投稿 in
この記事は、アシュリオン(Asurion)社エンジニアリング部門シニアディレクター Tomasz Magdanski 氏による特別寄稿によるものです。 アシュリオン(Asurion)社では、デバイスの保険やインストール、修理、交換、24 時間 365 日のサポートの提供を通じて、お客様がセキュアに、かつ快適に最新テクノロジーを利用できるよう支援しています。1 万人のエキスパートで構成されるサポートチームが、世界中の約 3 億のお客様の日々のニーズに電話やオンライン、対面で対応しています。サポート内容は、スマートフォンの即日交換、快適なストリーミングや接続を可能にするための技術的な問題の解決など多岐に及びます。 アシュリオン社では、種類や購入元にかかわらず、テクノロジーに常にアクセスできる環境、テクノロジーを最大限に活用できる環境をお客様に提供できるよう努めています。 レイクハウスで大規模 ETL を導入した背景と課題 アシュリオン社のエンタープライズデータサービスチームでは、全組織から 3,500 以上のデータ資

金融サービスのリスク管理に AI を活用する 4 つのメリット

効果的なリスク・コンプライアンス管理について詳しくは、 こちら のページをご覧ください。 銀行などの金融サービスにおける中核的な機能は、詐欺、マネーロンダリングなどの金融犯罪から顧客を守ることによる資産の保護、リスクの特定、損失の軽減です。相互に絡まり合ったデジタルな現在の世界において、金融サービスにおけるリスク・コンプライアンスの管理は、これまでになく複雑でコストのかかる取り組みとなっています。2008 年の グローバル金融危機 以来、コンプライアンスなどの規制変更は 500% 増加 し、プロセスにおける規制のコストは増大しています。金融サービス機関(FSI)では、2020 年に更新されたマネーロンダリング対策(AML)や 2023 年のトレーディング勘定の抜本的見直し(FRTB)、EU における PSD2 のような新たな規制への対応に追われています。コンプライアンス規制への対応に加え、データ管理やリスク評価の改善を求める消費者の声もあり、銀行の運用コストは 60% 増加しています。 コンプライアンスの問題は、

データレイクハウスによるリアルタイムPOS分析

翻訳:Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、 シームレスなオムニチャネル 体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。 パンデミック(世界的大流行)以前は、 小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、 オンラインと店舗を統合したエクスペリエンスへの需要を高める だけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。 リアルタイムの情報 へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。 このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大

Databricks SQL の最新イテレーション、新たな性能、速度改善

Data+AI サミット 2020 Europe で 発表 した Databricks SQL は、マルチクラウドの レイクハウス アーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...