Glossary
A-Z
ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNA を構成する原子の組成、および DNA 原子間の化学結合を決定することです。ゲノミクスの分野は、全体構造としてのゲノムに重点を置いており、生物の完全な遺伝物質の研究として定義することができます。DNA は 1869 年に初めて単離されましたが、ゲノミクスは、科学者が単純な生物の DNA シーケンスを決定した 1970 年代に始まったばかりです。ゲノミクスの分野で最{...}
デジタルツインとは
IBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。デジ タルツインは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー(OT:運用技術データ)やエンタープライズデータ(IT:情報技術)を用いてシステムやプロセスの状態データを収集し、仮想モデルを形成します。このモデルは、シミュレーションの実行、性能の問題の調査、知見の抽出に使用できます。
デジタルツインの概念は、特に新しいものでは{...}
Datasetとは、Java および Scala 用のタイプセーフなSparkの構造化APIです。Python および R は動的型付け言語であるため、この API の使用はできませんが、Scala や Java で大規模なアプリケーションを作成するためには強力なツールです。DataFrame は、Row 型のオブジェクトの分散型コレクションであり、さまざまなタイプの表形式データを保持できます。Dataset API を使用すると、データフレーム内のレコードに Java クラスを割り当て、Jav{...}
データボルトとは
Data Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。
ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。
データボルトは、レイクハウスのパラダイムを採用{...}
データマートとは
データマートは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。一般的には、大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ、分析や BI(ビジネスインテリジェンス)、レポーティングに使用されます。データマートは、中央データウェアハ{...}
データ共有とは
データ共有とは、同じデータを複数のユーザーで利用できるようにすることです。増加し続けるデータは、あらゆる企業にとって重要な戦略的資産です。組織内外におけるデータ共有は、新たなビジネスチャンスを生み出すカギとなる技術です。外部データを利用するだけでなく、データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データのマネタイズによる新たな収益源の確保が可能になります。
従来のデータ共有ソリューション
SFTP(SSH File Tra{...}
メダリオンアーキテクチャとは
メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させること を目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。
レイクハウスアーキテクチャのメリット
シンプルなデータモ{...}
金融サービスのパーソナライズとは
金融商品やサービスのコモディティ化が進み、メディアや小売業界がパーソナライズされた体験を好むようになったことで、消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で、銀行がこれからも必要とされ続けるためには、パーソナライズされた知見やレコメンド、財務目標の設定、レポート機能といった従来の銀行業務を超えた魅力的な銀行体験を提供する必要があり、これらは全て地理空間や自然言語処理(NLP)などの高度な分析機能によって実現されます。金融サー{...}
ト ランザクションとは
データベースやデータストレージシステムにおけるトランザクションとは、1 つの作業単位として扱われるあらゆる操作のことです。トランザクションは、完全に実行される、もしくは全く実行されないかのいずれかで、ストレージシステムを一貫した状態に保ちます。トランザクションの典型的な例として、銀行の預金口座から現金を引き出す処理が挙げられます。この場合、預金口座から現金を引き出したか、もしくは全く引き出さなかったか、どちらかの処理が発生し、中間の状態はありません。
ACID {...}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの 1 つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。
勾配降下法の種類
現在、機械学習や深層学習のアルゴリズムに使用されている勾配降下法は、主に3種類あります。
バッチ勾配降下法
3 種類の勾配降下法の中で、バッチ勾配降下法は一番容易な手法です。トレーニングデータセットの各データの誤差を計算しますが、トレーニングデータの計算が全て終了するまでモデル{...}
Apache Hive とは
Apache Hive は、Apache Hadoop 分散ファイルシステム (HDFS) から抽出された大規模なデータセットの読み取り、書き込み、および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで、より規模の大きい Hadoop エコシステムの側面も持ち合わせています。
Apache Hiveの豊富なドキュメントと継続的なアップデートにより、Apache Hiveはアクセスしやすい方法{...}
Apache Kudu とは
Apache Kudu とは、Apache Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。構造化データ用エンジンで、各行への低遅延でランダムなミリ秒スケールのアクセスに加えて、優れたアクセスパターン分析もサポートします。広く普及している Hadoop 分散ファイルシステム(HDFS)と NoSQL データベースの HBase 間をつなぐために作成されたビッグデータエンジンです。
Hadoo{...}
Apache Kylin とは
Apache Kylin とは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache Kylin は Hadoop や Spark でSQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。さらに、ODBC ドライバ、JDBC ドライバ、REST API を介して BI ツールと容易に統合します。2014年に eBay が構築した Apache Kylin {...}
Apache Spark とは
Apache Spark は、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Spark は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoop システムでのジョブ処理を高速化する方法を模索していました。Apache Spark は Hadoop MapRedu{...}
Catalyst オプティマイザとは、Spark SQL で主要な役割を果たす最適化機能です。Scala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。Catalyst は Scala の関数型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。
Spark SQLへの新しい最適化技術と機能の追加を容易にする
外部の開発者でもオプティマイザの拡張を実行できるよ{...}
深層学習において、畳み込みニューラルネットワーク(CNN または ConvNet)はディープニューラルネットワークの1つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理などさまざまな用途に対する導入事例もあります。畳み込みネットワークのアーキテクチャは人間の脳内のニ ューロン結合パターンに類似し、視覚野の組織構造に着想を得ました。人工ニューラルネットワーク関連のこのタイプは、ネットワークの最も重要な操作の一つである「畳み込み」から名{...}
Databricks ランタイムは、データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。Spark はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks ランタイムが他のランタイムよりも優れている点は次のとおりです。
優れたパフォーマンス:Databricks I/Oモジュール(DBIO)は、垂直統合スタックを活用してクラウドで{...}
DataFrame とは
DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。
DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを{...}
DNA シーケンスとは
DNA シーケンスとは、DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化学構成要素(アデニン、グアニン、シトシン、チミン)の順序のDNAシーケンシングは、DNA分子内で発生します。DNA シーケンシングの最初の手法は、1970年代半ばにフレッド・サンガー(Fred Sanger)、ウォルター・ギルバート(Walter Gilbert)、アラン・マクサム(Allan Maxam)によって開発されました。配列決定さ{...}
Delta Live Tables
Delta Live Tables(DLT)は、データパイプラインの構築と管理を容易にし、信頼性を向上させて Delta Lake に高品質データをもたらします。
Databricks ETL の
詳細
ETL とは
組織におけるデータ、データソースの増加、データタイプの多様化に伴い、分析、データサイエンス、機械学習に取り組み、データを活用してビジネスの気づきを引き出{...}
Feature engineering for machine learning
Feature engineering, also called data preprocessing, is the process of converting raw data into features that can be used to develop machine learning models. This topic describes the principal concepts of f{...}
Hadoop とは
「Hadoop」とは何を意味するのでしょうか。「Hadoop」とは何の略なのでしょうか?Hadoop は、High Availability Distributed Object Oriented Platform の略です。そして、これ こそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。
Apache Hadoop とは、オープンソースの Java ベースのソフトウェアプラットフォームで、ビッ{...}
Hadoop エコシステムとは
Apache Hadoop エコシステムとは、Apache Hadoop ソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールの全てが含まれます。Hadoop エコシステムの最もよく知られているツールには、HDFS、Hive、Pig、YARN、MapReduce、Spark、HBase Oozie、Sqoop、Zookeeper、などがあります。開発者が頻繁に使用する主要な Hadoop エコ{...}
Hadoop クラスタとは
Apache Hadoop とは、オープンソースの Java ベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、Hadoop クラスタ全体に分散させることができます。Hadoop クラスタとは、ビッグデータセットに対してこのような並列計算を実行するためにネットワーク化された、ノードと呼ばれるコ{...}
HDFS
HDFS ( Hadoop 分散ファイルシステム)は、 Hadoop アプリケーションで使用される主要なストレージシステムです。このオープンソースのフレームワークは、ノード間のデータ転送を高速に行うことで動作します。ビッグデータを取り扱い、保存する必要のある企業でよく利用されています。HDFS は、ビッグデータを管理し、ビッグデータ解析をサポートする手段として、多くの Hadoop システムにおいて重要なコンポーネントとなっています。
HDFS を利用している企業は世界中に{...}
ハイブ日付関数とは
Hiveでは、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。
HIVE の組み込み関数の種類
日付関数
日付に日数を加算したり、他の類似の演算を追加するなど、日付データ型に対する操作を実行するために主に使用されます。
数学関数
主に数学的計算を実行するために使用されます。
条件関数
条件をテストするために使用{...}
Jupyter Notebook とは
Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。
Jupyter Notebook の用途
Jupyter Notebook は、探索的データ解析(EDA)、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習{...}
Keras モデルとは?
Keras とは、Theano と Tensorflow 上に構築された深層学習のためのハイレベルのライブラリです。Keras は、Python で記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Keras は、ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワーク API の 1 つです。現在では、ニューラルネットワークのレイヤーの作成や複雑なアーキテクチャの設定が、Ke{...}
MapReduce とは
MapReduce は、Apache Hadoop エコシステムの一部であり、Java ベースの分散実行フレームワークです。開発者が実装する Map 処理と Reduce 処理の 2 つの処理ステップを公開することで、分散プログラミングの複雑さを解消します。Map 処理では、データは並列処理するタスク間で分割されます。データの各チャンクには、変換ロジックを適用できます。Map 処理が完了すると Reduce 処理が行われ、Map 処理で分割されたデータの集約を実行{...}
MLOps とは
MLOps は、Machine Learning Operations(機械学習オペレーション)の略語です。機械学習エンジニアリングの中核となる MLOps は、機械学習モデルを本番環境に移行し、維持・監視のプロセスを効率化することに重点を置いています。MLOps は、多くの場合、データサイエンティスト、DevOps エンジニア、IT 部門で構成されるチーム間のコラボレーションを担います。
MLOps の活用法
MLOps は、機械学習や AI ソリュ{...}
データサイエンスに関していうと、 pandas DataFrame を使いこなすことで、ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし、そのためには適切なデータ構造が必要です。これらを上手く活用することで、データの操作や分析を最大限効率的にできるようになります。
この目的のために使える最も便利なデータストラクチャの1つが pandas DataFrame です。
pandas とは、プログラミング言語 Python でデータ分析を行うためのオープンソ{...}
Parquet とは
Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。
{...}
PyCharm とは、コンピュータプログラミングで使用される統合開発環境(IDE)です。プログラミング言語 Python 用に作成されています。PyCharm をデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。
{...}
PySpark とは
Apache Spark は、プログラミング言語 Scala で記述されています。PySpark とは、Spark を実行するための Python API です。Apache Spark とPython のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、これは Py4{...}
Sparkには、DataFrame、Dataset、RDDの3つのAPIがあります。
レジリエントな分散データセット(RDD)とは
レジリエントな分散データセット(RDD)は、分散コンピューティングを用いたレコードコレクションです。フォールトトレラントで不変な性質を有しています。RDDは、低レベルAPIとの並列操作が可能で、遅延機能によりSparkの操作を迅速化します。また、RDDは2つの操作をサポートしています。
トランスフォーメーション —別の RDD を返す遅延操作{...}
Spark Elasticsearch とは
Spark Elasticsearch とは、ドキュメント指向および半構造化データを格納、取得、管理する NoSQL 分散データベースです。GitHub オープンソースである Elasticsearch は、Apache Lucene をベースに構築され、Apache ライセンスの条件下でリリースされた RESTful な検索エンジンでもあります。
Elasticsearch は Java ベースであるため、さまざまな形式のドキュメントフ{...}
多くのデータサイエンティスト、アナリスト、一般的な BI ユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL とは、構造化データ処理のためのSparkモジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、分散型 SQL クエリエンジンとしても機能します。これにより、既存のデプロイやデータで未修正の Hadoop Hive クエリを最大 100 倍の速さで実行できるようになりました。また、他の Spark エコシステ{...}
Sparklyrとは
Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spar{...}
SparkR とは、R 言語を Spark 上で動作させるためのツールです。Spark の他の言語バインディングと同じ原理に基づいています。SparkR を使用するには、環境にインポートしてコードを実行するだけです。Python ではなくR 言語の構文に従っていることを除けば、Python API と非常に類似しています。ほとんどの場合、Python で利用可能なものは、SparkR でも利用できます。
{...}
Spark アプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは、main() 関数を実行し、クラスタのノード上で動作します。また、3 つの役割があり、Spark アプリケーションに関する情報管理、ユーザーのプログラムや入力への応答、およびエグゼキュータ(瞬間的に定義)全体におけるタスクの分析、分散、スケジューリングを行います。ドライバプロセスは必要不可欠です。Sparkアプリケーションの中心であり、アプリケーションの{...}
Apache Spark ストリーミングは、Apache Spark の前世代ストリーミングエンジンです。Spark ストリーミングの今後の更新はなく、レガシープロジェクトとなります。Apache Spark には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります 。ストリーミングアプリケーションとパイプラインには、Spark 構造化ストリーミングをご使用ください。構造化ストリーミングの詳細はこちらでご覧いただけます。
Sparkストリーミングとは
{...}
Sparkパフォーマンスチューニングとは
Sparkパフォーマンスチューニングとは、システムが使用するメモリやコア、インスタンスなどを記録するための設定を調整する処理のことです。この処理により、Sparkは優れた性能を発揮し、リソースのボトルネックの防止も可能になります。
データのシリアライズとは
メモリ使用量を削減するために、Spark RDDをシリアル化して格納する必要があります。また、データのシリアライズは、ネットワークのパフォーマンスにも影響します。Sparkの性能を向{...}
Python には、多次元配列を操作する NumPy と呼ばれるビルトインライブラリがあります。PyTensor ライブラリを開発するには、NumPy を使用することが第一の要件となります。Sptensor は、Sparse Tensor を表すクラスです。Sparse Tensor とは、エントリの大部分がゼロであるデータセットです。例としては、大規模な対角行列(多くがゼロ要素)が挙げられます。Tensor オブジェクトの値全体を保存するのではなく、非ゼロ値とそれに対応する座標を保存します。S{...}
How Does Stream Analytics Work?
Streaming analytics, also known as event stream processing, is the analysis of huge pools of current and “in-motion” data through the use of continuous queries, called event streams. These streams are triggered by a{...}
What is supply chain management?
Supply chain management is the process of planning, implementing and controlling operations of the supply chain with the goal of efficiently and effectively producing and delivering products and services to the end{...}
Google は、2015年11月に機械学習のためのフレームワークをオープンソースで公開し、TensorFlow と名付けました。CPU、GPU、GPU クラスタでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。TensorFlow の最大の利点はそのコミュニティにあり、多くの開発者、データサイエンティスト、データエンジニアがオープンソースの開発に貢献しています。TensorFlow の現在のバージョンは、リリースノートとともに GitHub&nbs{...}
Tensorflow Estimator API とは
Estimator は、完全なモデルを表しますが、ユーザーの多くに複雑な印象を与える傾向があります。Estimator API とは、モデルを訓練して、その精度を評価し、推論を作成するためのメソッドを提供する高レベル API です。下の図のように、TensorFlow は複数の API 層からなるプログラミングスタックを提供します。Estimator に は、事前構築された Estimator と、独自でカスタマイズする Es{...}
Tungsten プロジェクトとは
Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。
Tungsten プロジェクトに含まれるイニシアティブ
メモリ管理とバイナリ処理:アプリケーションのセマンティックスを活用してメモリを明示的に管理し、JVM オブジェクトモデルとガベージコレク{...}
アノマリー検知とは、定常状態とは統計的に異なる不審なイベントや観測値を特定する手法です。異常検知とも呼ばれます。このような「異常」な挙動は、多くの場合に、クレジットカードの不正使用、マシンの故障、サイバー攻撃といった問題の存在を意味します。例えば、膨大な数のトランザクションの監視が必要な金融業界では、アノマリー検知がエラーの発生場所の特定や原因の分析を支援し、問題への迅速な対応を可能にします。また、検知した異常値をもとにしたアラートの発行にも活用され、担当者の行動を促します。そこから得られる情報{...}
オルタナティブ(代替)データとは
オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし、正確には何をオルタナティブデータとみなすかは業界によって異なり、自社や競合他社で既に使用されている従来のデータソースに依存されています。
標準的なオルタナティブデータタイプ{...}
オーケストレーションとは
オーケストレーションとは、複数のコンピュータシステム、アプリケーション、サービスを調整および管理し、大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは、自動化された複数タスクで構成され、複数のシステムをまたぐこともあります。
オーケストレーションは、頻繁に繰り返されるプロセスの実行を効率化および最適化し、データチームが複雑なタスクやワークフローを容易に管理できるようにします。プロセスはいつでも繰り返しが可能で{...}
オープンバンキングとは
オープンバンキングとは、消費者の事前同意のもとに、消費者の金融データへのアクセスをセキュアに共有する方法です²。規制や技術革新、競合の勢いに後押しされ、オープンバンキングは、銀行以外の第三者や消費者などが顧客データをさらに活用できるよう、顧客データの民主化を呼びかけています。この技術革新は、銀行業界を他業界との高い連携性を持つプラットフォーム提供者へと進化させると同時に、銀行にエコシステムを拡大し、新規市場への参入機会を与えています。オープンバンキングを利用して、現{...}
サービスとしての Apache Spark(Apache Spark as Spark-as-a-Service)とは
Apache Spark は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009 年に研究が開始されて以来、目覚ましい発展を遂げてきました。Apache Spark は現在、50 を超える組織から 200 名以上が参加する、ビッグデータの最{...}
スタースキーマとは
スタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。
1990 年代にラルフ・キンボールによって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの更新を効率的に行い、データウェアハウスでのデ{...}
スノーフレークスキーマとは
スノーフレークスキーマは、スタースキーマを拡張した多次元データモデルで、ディメンションテーブルがサブディメンションテーブルに細分化されたものです。スノーフレークスキーマは、データウェアハウスやデータマート、リレーショナルデータベースの多次元分析を使用した BI(ビジネスインテリジェンス)やレポーティングによく使用されています。
スノーフレークスキーマでは、エンジニアがそれぞれのディメンションテーブルを論理的なサブディメンションに細分化します。このため、デー{...}
データウ ェアハウスとは?
データウェアハウス(DWH)は、複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。主に、ビジネスインテリジェンス(BI)、レポート作成、データ分析に使用されます。
データウェアハウスでは、POS システム、インベントリ管理システム、マーケティングや販売データベースなどの業務システムに蓄積されたデータを、迅速かつ容易に分析可能です。データは、オペレーショナルデータストアを中継{...}
データガバナンスとは
データガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。
ビジネスにおけるデータガバナンスのメリット
データの量と複雑さの増大に伴い、コアビジネスの強化につながるデータガバナンスに注目しています。データガバナンスはビジネスに次のようなメリットをもたらします{...}
データレイクハウスとは?
データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで、あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。
シンプル、柔軟で低コストなデータレイクハウス
データレイクハウスは新たなオープンシステムデザインによって構築されており、データウェアハウスと類似のデータ構造とデータ管理機能{...}
データ分析プラットフォームとは
データ分析プラットフォームとは、膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソースからのデータの取得、結合、連動、検索、視覚化を可能にします。包括的なデータ分析プラットフォームには、予測分析、 データ視覚化、ロケーションインテリジェンス、自然言語、コンテンツ分析など、さまざまな機能を搭載した複数のツールが組み込まれています。その主な目的は、あらゆる種類のデータを実用的な洞察に変換し、真のビジネス成果につなげる{...}
トランスフォーメーションとは:
Sparkでは、コアとなるデータ構造は不変であり、一度作成したデータ構造は変更できないため、実際に使用する際に、最初はこの概念に疑問を抱くかもしれません。SparkでDataFrameを変更するためには、Sparkに対し、既存のDataFrameをどのように修正したいかを指示する必要があります。この指示をトランスフォーメーションと呼びます。トランスフォーメーションとは、Sparkを使用してビジネスロジックをどのように記述するかの中心となるものです。トランスフ{...}
ニューラルネットワークとは
ニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。ニューラルネットワークは、入力層と出力層で構成されており、その多くには隠れ層があります。この隠れ層は、入力を出力層で使用できるものに変換するユニットで構成されています。
ニューラルネットワークアーキテクチャのタイプ
人工ニューラルネットワークとしても知られるニュー{...}
コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値をみつけます。使用されるキーの主な特徴は次のとおりです。
社会保障番号、電話番号、口座番号などのキーを使用します。
キーは一意である必要があります。
各キーは、値に関連付け(マッピング)されます。
{...}
バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。
バイオインフォマティクスは、生物学のデータの保存、取得、整理、分析を行うバイオテクノロジーにITを活用することを指します。膨大なデータ量がゲノム配列決定プロジェクトや他の研究から生成されており、このデータ急増により、実に生物学における課題のほとんどは、膨大な計算の必要性に迫られています。バイオインフォマティクスという用語は、1970年にポーリーン・ホフヴェイ(Paul{...}
データ分析とビッグデータ分析の違い
Hadoop が開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析はスモールデータに制限されていました。しかし、このような比較的簡易な形式でも、特に新しいデータソースの統合においては、分析が困難なケースが生じていました。従来のデータ分析は構造化データのテーブルで構成されたリレーショナルデータベース(SQL データベースなど)の使用に依存しています。データを分析用のデータベースに取り込む前に、未加工データ{...}
ベイジアンニューラルネットワークとは
ベイジアンニューラルネットワーク(BNN)とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。プログラミング言語において、特定の値を取得できる変数は、その特定の変数にアクセスする度に同じ結果になります。まず、一連の入力特徴量の加{...}
ホスト型の Spark とは
Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の G{...}
データブリックスの Delta パイプラインとマテリアライズドビュー
概要
Delta パイプラインは、データパイプラインのライフサイクルを管理する API と UI を提供します。オープンソースのフレームワークがデータエンジニアリングチームによる ETL の開発をシンプルにし、データの信頼性を向上させ、運用の拡張を支援します。データ変換のコーディングやジョブのスケジューリングを行う代わりに、宣言型パイプラインを構築することで、データの最終状態を容易に定義できます。さまざまなタスク間{...}
マネージドSparkとは
マネージド Spark は、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易し、タスクが完了したときにクラスタをオフにすることができます。ワークロード、パフォーマンス要件、または既存のリソースに基づいてクラスタのサイズを設定することも可能です。さらに、ほんの数秒で動的にスケールアップおよびスケールダウンできる{...}
モデルリスク管理とは、モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。金融サービスにおけるモデルリスクとは、精度が低いモデルを使用して意思決定を行うことで生じる損失リスクを意味します。 多くの場合は金融証券の評価に使用され、消費者信用スコアの付与、クレジットカードの不正取引のリアルタイムな確率予測、マネーロンダ{...}
ラムダアーキテクチャとは
ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。
バッチレイヤー
新しいデータは、データシステムへのフィードとして継続的に提供されます。データはバッチレイヤーとスピードレイヤーに同時に供給されます。全てのデータを一度に調べ、{...}
小売業におけるリアルタイムデータ
小売業におけるリアルタイムデータとは、データへのリアルタイムなアクセスを意味します。バッチ式のアクセス、分析、コンピューティングからリアルタイムアクセスに移行することで、データは常時稼働の状態となり、正確でタイムリーな意思決定とビジネスインテリジェンス(BI)の推進が可能になります。需要予測、パーソナライゼーション、店頭在庫の可用性、到着時間予測、オーダーピッキングとコンソリデーションといったリアルタイムのユースケースは、サプライチェーンのアジリティ{...}
リテール向けレイクハウス
リテール向けレイクハウスは、Databricks 初の業界特化型レイクハウスです。ソリューションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。
リテール向けレイクハウスは、テクノロジー、パートナー、ツール、業界イニシアチブの集大成であり、データと AI における強力なコラボレーションを推進します。リテール向けレイクハウスの主要な構成要素は、次の 4 つです。
データと AI {...}
予測分析とは
予測分析とは、新しいデータと過去のデータを活用してパターンを見つけ出し、将来の結果や傾向を予測する高度な分析手法です。
予測分析の仕組み
予測分析では、統計分析技術、分析クエリ、データマイニング、予測モデリング、自動機械学習アルゴリズムなどの多くの技術をデータセットに使用して、特定の事象が発生する可能性を数値化し、what-if シナリオやリスク評価などを含む予測モデルを作成します。予測分析により、組織はデータに含まれるパターンを見つけて利用することで、リスクと機{...}
予測型メンテナンスとは
予測型メンテナンスとは、一言でいうと、予め定められたスケジュールだけでなく、設備の実際の状態や状況に基づき、いつ頃、具体的にどのようなメンテナンスを行うべきかを判断し、設備の稼働時間と生産性を最大化するためのものです。故障を予測や予防し、適切な定期メンテナンスを実施することで、コストのかかる機器のダウンタイムを 削減できます。
IoT とセンサーデータが機器からストリーミングされることで、予測型メンテナンスは、製造業者が効率的に機械が停止するタイミングを予測する{...}
人工ニューラルネットワークとは
人工ニューラルネットワーク(ANN)とは、人間の脳内にある神経細胞(ニューロン)の動作を模したコンピューティングシステムです。
人工ニューラルネットワークの仕組み
人工ニューラルネットワーク(ANN)は、階層で構成される重み付き有向グラフにするとわかりやすく、これらの階層は人間の脳の生体ニューロンを模した多数のノードを特徴とし、相互に接続され、活性化関数を含みます。第1層は、外部から未処理の入力信号を受信します。人間の視覚処理における視神経に類似{...}
構造化ストリーミングとは、 ストリーミングデータを処理するための高レベル API です。Spark 2.2 で実運用が可能になりました。構造化ストリーミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、インクリメンタル処理が可能になります。構造化ストリーミングの最大のメリットは、事実上コードを変更することなく、ストリーミングシステムから迅速に価値を引き出すことができることです。また、バッチジョブを{...}
通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。各ステージに利用できるライブラリは多数ありますが、特に大規模なデータセットを使用する場合、それぞれのライブラリを全体につなげる作業は容易ではありません。また、ほとんどの機械学習ライブラリは、分散計算用には設計されていないか、パイプライン{...}
機械学習モデルとは
機械学習モデルとは、未知のデータセットからパターンを発見したり、判断を導き出すプログラムのことです。例えば、自然言語処理では、機械学習モデルにより、これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し、正しく認識できます。また、画像認識では、機械学習モデルを学習させることで、車や犬などのオブジェクトを認識できます。機械学習モデルは、大規模なデータセットを用いて「トレーニング」することで、上述のようなタスクの実行が可能になります。トレーニングでは、機械学{...}
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティスト は、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティ{...}
深層学習とは
深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。深層学習は、データ表現の学習に基づく機械学習手法の1つで、従来のタスク固有のアルゴリズムとは異なります。
深層学習の仕組み
深層学習では、コンピュータモデルが、画像、言語、または音声から直接分類タスクを実行できるように学習します。タスクを繰り返し実行して、結果改善のための微調整を{...}
総合人工知能( UAI )は、開発者カンファレンス「F8 」で Facebook によって発表されました。UAI は Facebook 主導で開発された、PyTorch と Caffe の 2 つの深層学習フレームワークを統合したもので、PyTorch は大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。スコープが狭い Facebook の統合 AI とは異なり、統合{...}
統合データウェアハウスとは
統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。今日、多くの企業においてデータはサイロ化されています。データの品質、統合、ガバナンスの保守や、メタやマスターデータ、B2B データ交換、データベース、アーキテクチャの管理など、同じ組織内の異なるそれぞれの部門で、多様なデータをさまざまなツールで管理しています。大企業におけるデータウェアハウス{...}
統合データ分析とは、データ処理を AI 技術と統合する新しいカテゴリのソリューションです。企業組織にとっての AI の実現可能性を格段に高め、AI への取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、モデル構築のラベル付きデータセットの準備が容易になるため、組織は既存のデータに AI を実行したり、大規模なデータセットに対して AI を繰り返し実行したりできるようになります。 また、統合データ分析では、幅広い {...}
データブリックスの統合データ分析プラットフォーム は、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。また、このプラットフ ォームでは、あらゆる人工知能アプリケーションに対して ML モデルを継続的にトレーニングしてデプロイすることも可能です。統合データ分析プラットフォームを使用するメリットのトップ 3 は{...}
耐障害性分散データセット(RDD)とは、Spark のリリース以降、Spark の主要なユーザー向け API として利用されてきました。RDD は、クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり、変換その他の操作のための基礎的な API と並行して使用することが可能です。
RDDの使用が適した5つのケース
データセットに対し、低レベルの変換やアクション、管理を実行する場合
所有データがメディアストリームやテキストストリームなどの非構造化データである場合
{...}
自動化バイアスとは
自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。認知的努力を最小限に抑え、「自動化バイアス」に依存しがちなのは、人間の傾向性ですが、大規模なデータからの学習をベースとするAIや自動化機能にも同様の傾向性が当てはまる懸念があります。このタイプのコンピューテー{...}
複合イベント処理(CEP)とは
複合イベント処理(CEP)とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。複合イベント処理は、多くの異なる情報を集約するのに有用で、イベント間の因果関係をリアルタイムで特定、分析する整理ツールです。CEPでは連続的に収集されるイベントをパターンと照合し、イベント内容についての洞察の提供、効果的なアクションの積極的な実行を可能にし{...}
設備総合効率( OEE )とは
設備総合効率( OEE ) は、 製造 におけるオペレーションが、予定されている期間中に、その潜在的な能力(設備、時間、材料)に対して、どれだけ利用されているかを示す指標です。製造時間のうち、実際の稼働時間の割合を特定することができます。OEE は、離散的または連続的なプロセスの総合的な性能を示すダッシュボードです。OEE は 100% で最大となり、良い部品だけが( 100% 品質)、最高速度で( 100%{...}
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。連続実行アプリケーションが処理できるユースケースは次のとおりです。
リアルタイムで提供されるデータの更新:開発者は、更新と提供(SparkのJDBCサーバ{...}
需要予測とは
需要予測とは、消費者の需要(将来収益)を予測するプロセスです。具体的には、定量的および定性的データを使用して、消費者が購入する商品の品揃えを予測します。
小売業者は、消費者が求めるタイミングで商品を提供できないことで、1 兆円規模の収益機会を逃しています。低精度の需要予測は、需要に即していない商品の陳列につながり、さらには、店頭の在庫切れなどの大きな問題を引き起こします。
リテール向けレイクハウスによる需要予測
リテール向けレイクハウスは、デー{...}