メインコンテンツへジャンプ
<
ページ 17
>

Databricksのファイルシステム

June 17, 2021 Takaaki Yayoi による投稿 in ソリューション
こちら からサンプルノートブックをダウンロードできます。 Databricksでファイルを取り扱う際には、Databricks File System (DBFS) を理解する必要があります。 本記事では、DBFSの概要をご説明するとともに、具体的な使用例をご説明します。 Databricks File System (DBFS) Databricks File System (DBFS) はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします: オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができます。 ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできます。 ファイルはオブジェクトストレージで永続化されるので、クラス

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規/更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。 効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR(デマンドシグナルリポジトリ)は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。 このようなタイプのデータをまとめる際の課題は、異なるデータの照

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in お知らせ
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

データブリックスとアクセンチュアの連携で大規模な機械学習の運用を効率化

February 1, 2021 Jim GreggAtish Ray による投稿 in パートナー
データブリックスはこのたび、アクセンチュアとのパートナーシップを発表しました。このパートナーシップを通じて世界中のエンタープライズ企業に、私たちのサービスと再利用可能なコンポーネントを提供できることが期待されています。また、データ戦略、データ設計、データプラットフォームの最新化、および AI を専門とするアクセンチュアのデータ・AI 部門は、データブリックスの統合データ分析プラットフォームを活用し、これまでに実証された手法を、機械学習の大規模な運用に向けて最適化できます。アクセンチュアとデータブリックスは共に、エンタープライズにおけるデータのサイロ化の解消、アジャイルで適応性の高いプロセスの構築、データドリブンな意思決定による問題解決、新たな機会創出を可能にします。 アクセンチュアとデータブリックスのグローバルなパートナーシップは、両社が以前から共同でソリューションアクセラレータおよびソリューションを開発してきた実績に基づいています。私たちはさまざまな業界のお客様にこれらを提供し、機会創出を支援してきました。また

レイクハウスと Delta Lake の内部構造

September 10, 2020 Joel Minnick による投稿 in Databricks ブログ
Databricks は以前の ブログ で、企業におけるレイクハウス(LH)採用の増加状況について解説しました。このブログの内容は、技術系のオーディエンスから大きな反響がありました。多くの方がレイクハウスを次世代のデータアーキテクチャとして賞賛してくださったのですが、データレイクと何ら変わらないのではいうご意見もいただきました。そこで、Databricks のエンジニアと創業者が、データレイクとは一線を画すレイクハウスパラダイムを核とする技術的課題とソリューションについてのリサーチペーパー「Delta Lake: High-performance ACID Table Storage over Cloud Object Stores」(Delta Lake:クラウドオブジェクトストアによる高性能ACIDテーブルストレージ)を共同執筆しました。このペーパーは、大規模データベースの国際会議 VLDB2020 で受理、発表されました。リサーチペーパーの全文は こちら からダウンロードできます。 「もし私が顧客に何が欲し

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ
Databricks における公共セクター(州・地方政府)部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。 暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な 新たな成果の報告 もあります。米国疾病予防管理センター(CDC)をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。 私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。 世界的

カスタマーリテンション(顧客維持)による LTV の向上と最大化 – ML のハイパーパラメータで解約率を予測

顧客のロイヤルティや維持率が高い企業では、収益が同業他社に比べ 250% 早く成長 し、10 年間での株主利益率も 2 倍から5 倍に達します。顧客のロイヤルティを獲得し、定着数を最大にすることは、企業と顧客ベースの両方に多くの利益をもたらします。 ではなぜ多くの企業にとって顧客の維持が難しいのでしょうか?ARPU(顧客 1 人あたりの平均売上高)を指標とする通信会社などのサブスクリプションベースの企業以外は、顧客維持率の公式な開示を重視していない企業がほとんどです。企業では、顧客ではなく製品やサービスの機能面に重点を置き、顧客ロイヤルティはこれらの取り組みによって自然に向上するものと考えています。実際に、 ニールセンの 2020 年の調査結果 では、「企業のマーケティング目標の中で、顧客離脱・解約への対応の優先度は最下位」であることが明らかになっています。 多くの事実からも、顧客の消費行動が変化していることがわかっており、顧客維持は特に重要な課題です。 新型コロナウイルス感染症(COVID-19)による消費行動

Azure 環境でのモダン IIoT 分析 - Part 3

August 20, 2020 Samir GuptaLana KoprivicaHubert Duan による投稿 in 製品
モダン IIoT(産業用 IoT)アプリケーションのための Azure データ分析に関するブログを 3 部構成でお届けしています。前回の Part 2 では、フィールドデバイスからリアルタイムの IIoT データを Azure に取り込み、データレイク上で直接実行する複雑な時系列処理について解説しました。Part 3 となる今回は、機械学習を活用した予測メンテナンスで風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コストを最小限に抑え、利益を最大化する手法を解説します。 モデルのトレーニングによって得られた結果とそれを視覚化したものは、以下のような Power BI レポートに表示されます。 下の図は、エンドツーエンドのアーキテクチャを示したものです。 機械学習:出力と残存耐用年数の最適化 風力タービンのような産業用資産のユーティリティ、耐用期間、運用効率における最適化は、収益とコストに多くのメリットをもたらします。このブログでは、風力タービンの収益を最大にすると同時に、ダウンタイムによる機会コスト

Delta Engine の概要

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、 レイクハウス アーキテクチャの採用やスケーリングが容易になります。 実行性能のスケーリング...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...