メインコンテンツへジャンプ
<
ページ 12

Delta Lake でのスキーマ(schema)DB の適用・展開とは

September 24, 2019 Burak YavuzBrenner Heintz による投稿 in Databricks ブログ
データブリックスの Notebook シリーズを試す データは常に進化し、蓄積されていきます。私たち人間の日々の経験と似ているかもしれません。私たちは、自身の周りの世界の変化についていくために、常に新しいデータを取り込み、認識し、ときにはその中から新たな概念や解釈を得ます。このような認識モデルは、まさにテーブルのスキーマそのものです。どちらも、新しく得る情報の分類と処理のしかたを決める役割を持っています。 データベースにおけるスキーマとは : そもそも「スキーマ(schema)」とは、日本人にとっても馴染みのある「スキーム(scheme)」という言葉の派生語です。計画や図などの意味を持ち、データベース関連だけでなく、哲学や心理学で使われている言葉でもあります。この記事で説明するデータベーススキーマ(DBスキーマ)とは、簡単に言えばデータベースの構造や整理の仕方のことです。細かな定義は、データベースの種類や会社によって異なりますので、今回は Databricks の次世代型データレイク・データウェアハウスである、D

Delta Lake を深堀り:トランザクションログの解析

August 21, 2019 Burak YavuzMichael ArmbrustBrenner Heintz による投稿 in Databricks ブログ
トランザクションログは、ACIDトランザクション、スケーラブルなメタデータ処理、タイムトラベルなど、Delta Lake の最も重要な機能の多くに共通する要素であるため、Delta Lake を理解するうえで重要な鍵となります。この記事では、Delta Lake のトランザクションログとは何か、ファイルレベルでどのように動作するのか、そして、複数の同時読み取りと書き込みの問題に対してどのようにエレガントなソリューションを提供するのかを探ります。 Delta Lake のトランザクションログとは Delta Lakeトランザクションログ(DeltaLog とも呼ばれる)は、Delta Lake テーブルで実行された全てのトランザクションの記録で、その開始以来、順番に記録されています。 トランザクションログの目的 シングルソースオブトゥルース Delta Lake は Apache Spark™ 上に構築されており、あるテーブルの複数のリーダーやライターが同時にテーブル上で作業することを可能にしています。ユーザーに常

機械学習モデル、決定木(ディシジョン・ツリー)による分析を活用した金融詐欺検知の大規模展開

Databricks の Notebook を試してみる 人工知能(AI)を活用した金融不正行為検知の大規模展開は、いかなるユースケースにおいても容易なことではありません。膨大の履歴データの取捨選択、絶えず進化する機械学習と深層学習技術の複雑さ、不正行為の実例の少なさなどが、不正行為パターンの検知を困難にしています。金融サービス業界においては、セキュリティに対する懸念の高まりや、不正行為がどのように特定されたかを説明することの重要性が加わり、複雑さがさらに増大しています。 一般的に、検知パターンを作成するために、まずはドメインエキスパートが不正行為者が行うであろう行為を想定して一連のルールを作成します。ワークフローに金融詐欺検知の専門家を含めて、特定の動作に関する要件をまとめる場合もあります。その後、データサイエンティストは、利用可能なデータのサブサンプルを取得し、これらの要件と、場合によっては既存の金融不正事例を参照して、深層学習または機械学習アルゴリズムのセットを選択します。そして、データエンジニアが、この検

Koalas:pandas から Apache Spark への容易な移行 – データラングリング(カテゴリ変数の導入)

April 24, 2019 Tony LiuTim Hunter による投稿 in お知らせ
データブリックスは本日開催された Spark + AI Summit において、PySpark の DataFrame API を拡張してpandas と互換性を持たせる新しいオープンソースプロジェクトの Koalas(コアラズ) を発表しました。 Python のデータサイエンスはここ数年で急速に拡大し、pandas は今ではエコシステムの要となっています。データサイエンティストはデータセットを入手する場合、pandas を使って検証します。pandas はデータラングリング(データクレンジング/データクリーニングおよびデータ整形)や分析に最適のツールです。実際に、pandas の read_csv は、データサイエンスに取り組む多くの学生が最初に学習する実行コマンドです。 pandas に課題があるとすれば、ビッグデータのスケーリングに適していないことです。pandas...

SQL でピボット(PIVOT)を使用したデータ変換:行から列への変換

November 1, 2018 MaryAnn Xue による投稿 in エンジニアリングのブログ
Databricks の Notebook を試してみる 2018/11/10/更新 ピボット(PIVOT)は、Apache Spark 1.6 から DataFrame 機能として実装されています。一意の値を1 つの列から複数の個々の列に変換し、テーブル値式を回転させる機能です。 Apache Spark 2.4 リリースでは、この便利なピボット機能を SQL でも利用できるようになりました。このブログでは、気温のデータを対象に、SQL の PIVOT で複雑なデータ変換を容易に行う方法を解説します。UNION ALL や...

広告効果測定:機械学習モデル作成による広告・マーケティングデータ分析方法(クリック予測)

July 19, 2018 Tony Cruz による投稿 in 製品
広告部門では、膨大な量の多様なマーケティングデータや Web 広告の効果を測定/分析するために、拡張性が高く柔軟なプラットフォーム・方法を必要としています。ビッグデータを活用したマーケティング効果測定(分類、クラスタリング、認識、予測、推薦などの高度な分析)によって、ビジネスの成果に結びつく、データからの深い洞察の抽出が可能となります。さまざまな種類の Web 広告の普及による多様なタイプのデータの増大に備え、Apache Sparkは、API と分散コンピューティングエンジンによってデータを容易にかつ並列に処理し、価値創出までの時間を短縮します。 Databricks レイクハウスプラットフォーム は、最適化されたマネージドクラウドサービスを提供し、コンピューティング資源と、共同作業のためのワークスペースのプロビジョニングを、セルフサービスで行う手段を提供します。 多くのデータサイエンティストが利用する Web サイト「Kaggle」から、広告インプレッションとクリックに関するデータ Click-Through

MLflow の概要:機械学習ライフサイクル管理のためのオープンソースプラットフォームとは

June 5, 2018 Matei Zaharia による投稿 in データサイエンス・ML
データブリックスの「マネージド型 MLflow」とは MLflow とは、実験の追跡、モデルの管理やデプロイメントといった、機械学習におけるライフサイクルを管理するためのオープンソースのプラットフォームです。機械学習(ML)の開発を経験した人は誰でも、その複雑さを知っています。ソフトウェア開発における通常の懸念事項に加えて、機械学習開発には、複数の新たな懸念が伴います。データブリックスの数百社のお客様に共通する課題として、次のような事柄が挙げられます。 ツールの種類が多すぎる :データ準備からモデルトレーニングまで、数百のオープンソースツールが機械学習(ML)ライフサイクルの各フェーズに対応しています。しかし、部門が各フェーズで 1 つのツールを選択する従来のソフトウェア開発とは異なり、機械学習では、通常、 利用可能な全てのツール (アルゴリズムなど)を試して、結果が改善されるかどうかを確認します。そのため、機械学習開発者は数十のライブラリを使用し、本番環境に導入する必要があります。 実験の追跡が困難 :機械学習