用語集

データベースやデータストレージシステムにおけるトランザクションとは、1 つの作業単位として扱われるあらゆる操作のことです。トランザクションは、完全に実行される、もしくは全く実行されないかのいずれかで、ストレージシステムを一貫した状態に保ちます。{. . .}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの 1 つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。勾配降下法の種類には、{. . .}
オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。{. . .}
アノマリー検知とは、定常状態とは統計的に異なる不審なイベントや観測値を特定する手法です。異常検知とも呼ばれます。このような「異常」な挙動は、多くの場合に、クレジットカードの不正使用、マシンの故障、サイバー攻撃といった問題の存在を意味します。{. . .}
Apache Hive は、Apache Hadoop 分散ファイルシステム (HDFS) から抽出された大規模なデータセットの読み取り、書き込み、および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで、より規模の大きい Hadoop エコシステムの側面も持ち合わせています。{. . .}
Apache Kudu とは、Apache Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。造化データ用エンジンで、各行への低レイテンシでランダムなミリ秒スケールのアクセスに加えて、優れたアクセスパターン分析もサポートします。{. . .}
Apache Kylin とは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache Kylin は Hadoop や Spark で SQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。{. . .}
Apache Spark とは、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Spark は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。{. . .}
サービスとしての Apache Spark(Apache Spark as Spark-as-a-Service)とは?Apache Spark は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009年に研究が開始されて以来、目覚ましい発展を遂げてきました。 {. . .}
人工ニューロンネットワーク(ANN)とは、人間の脳のニューロンの動作を模したコンピューティングシステムです。人工ニューラルネットワークの仕組みは?ANN は、階層で構成される重み付き有向グラフにするとわかりやすく、{. . .}
自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。 {. . .}
ベイジアンニューラルネットワーク(BNN)とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。{. . .}
Hadoop が開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析は「スモールデータ」に制限されていました。{. . .}
バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。{. . .}
Catalyst オプティマイザとは、Spark SQL で主要な役割を果たす最適化機能です。Scala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。Catalyst は Scala の関数型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。{. . .}
複合イベント処理(CEP)とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。{. . .}
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。{. . .}
深層学習において、畳み込みニューラルネットワーク(CNN または ConvNet)はディープニューラルネットワークの 1 つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理などさまざまな用途に対する導入事例もあります。{. . .}
データ分析プラットフォームとは、膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソースからのデータの取得、結合、連動、検索、視覚化を可能にします。{. . .}
データガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。{. . .}
データレイクハウスとは?データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャです。{. . .}
データマートとは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。{. . .}
データ共有とは、同じデータを複数のユーザーで利用できるようにすることです。増加し続けるデータは、あらゆる企業にとって重要な戦略的資産です。組織内外におけるデータ共有は、新たなビジネスチャンスを生み出すカギとなる技術です。 {. . .}
データボルトとは、エンタープライズ規模の分析のためのデータウェアハウスの構築に使用されるデータモデリングのデザインパターンです。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。{. . .}
データウェアハウスとは、複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。主に、ビジネスインテリジェンス(BI)、レポート作成、データ分析に使用されます。{. . .}
Databricks ランタイムは、データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。Spark はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks ランタイムが他のランタイムよりも優れている点は次のとおりです。{. . .}
DataFrame とは、データをスプレッドシートのような行と列の 2 次元テーブルに編成するデータ構造のことです。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。{. . .}
Dataset とは、Java および Scala 用のタイプセーフな Spark の構造化 API です。Python および R は動的型付け言語であるため、この API の使用はできませんが、Scala や Java で大規模なアプリケーションを作成するための強力なツールです。DataFrame は、Row 型のオブジェクトの分散型コレクションであり、 {. . .}
深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。 {. . .}
需要予測とは、消費者の重要(すなわち将来の収益)を予測するプロセスです。具体的には、定量的および定性的データを使用して、消費者が購入する商品の品揃えを予測します。{. . .}
高密度テンソルとは、全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は、多様な多次元データ分析アプリケーションで使用されます。テンソル計算を実行できるソフトウェア製品は数多くあります。{. . .}
デジタルツインとは IBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。{. . .}
DNA シーケンスとは、DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる 4 つの化学構成要素(アデニン、グアニン、シトシン、チミン)の順序の DNA シーケンシングは、DNA 分子内で発生します。{. . .}
ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNA を構成する原子の組成、および DNA 原子間の化学結合を決定することです。ゲノミクスの分野は、{. . .}
Hadoop とは「Hadoop」とは何を意味するのでしょうか。「Hadoop」とは何の略なのでしょうか?Hadoop は、High Availability Distributed Object Oriented Platform の略です。これこそが Hadoop テクノロジーが開発者に提供するものです。{. . .}
Hadoop クラスタとは?Apache Hadoop とは、オープンソースの Java ベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、{. . .}
HDFS ( Hadoop 分散ファイルシステム)は、 Hadoop アプリケーションで使用される主要なストレージシステムです。このオープンソースのフレームワークは、ノード間のデータ転送を高速に行うことで動作します。ビッグデータを取り扱い、保存する必要のある企業でよく利用されています。{. . .}
Apache Hadoop エコシステムとは、Apache Hadoop ソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールの全てが含まれます。 {. . .}
コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値をみつけます。{. . .}
ハイブ日付関数とは? Hive では、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。{. . .}
ホスト型の Spark とは? Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、{. . .}
Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されます。{. . .}
Keras モデルとは?Kerasとは、TheanoとTensorflow 上に構築された深層学習のためのハイレベルのライブラリです。Keras は、Python で記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。{. . .}
リテール向けレイクハウスは、Databricks 初の、業界特化型レイクハウスです。ソリューションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。 {. . .}
ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。{. . .}
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。{. . .}
機械学習モデルとは、未知のデータセットからパターンを発見したり、判断を導き出すプログラムのことです。例えば、自然言語処理では、機械学習モデルにより、これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し、正しく認識できます。{. . .}
マネージド Spark とは、マネージド Spark は、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易し、{. . .}
MapReduce は、Apache Hadoop エコシステムの一部であり、Java ベースの分散実行フレームワークです。開発者が実装する Map 処理と Reduce 処理の 2 つの処理ステップを公開することで、分散プログラミングの複雑さを解消します。{. . .}
メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計パターンのことです。データがアーキテクチャの 3 つのレイヤー(ブロンズ ⇒ シルバー ⇒ ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸進的に向上させることを目的としています。{. . .}
通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。{. . .}
MLOps は、Machine Learning Operations(機械学習オペレーション)の略語です。機械学習エンジニアリングの中核となる MLOps は、機械学習モデルを本番環境に移行し、維持・監視のプロセスを効率化することに重点を置いています。{. . .}
モデルリスク管理とは、モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。{. . .}
ニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。{. . .}
オープンバンキングとは、消費者の事前同意のもとに、消費者の金融データへのアクセスをセキュアに共有する方法です²。規制や技術革新、競争の力に後押しされ、オープンバンキングは、銀行以外の第三者や消費者などが顧客データをさらに活用できるよう、顧客データの民主化を呼びかけています。 {. . .}
オーケストレーションとは複数のコンピュータシステム、アプリケーション、サービスを調整および管理し、大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは、自動化された複数タスクで構成され、複数のシステムにまたがることもあります。{. . .}
設備総合効率( OEE ) は、製造におけるオペレーションが、予定されている期間中に、その潜在的な能力(設備、時間、材料)に対して、どれだけ利用されているかを示す指標です。{. . .}
データサイエンスに関していうと、 pandas DataFrame を使いこなすことで、ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし、そのためには適切なデータ構造が必要です。{. . .}
Apache Parquet とは、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。{. . .}
金融商品やサービスのコモディティ化が進み、メディアや小売業界がパーソナライズされた体験を好むようになったことで、消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で、銀行がこれからも必要とされ続けるためには、{. . .}
予測分析とは、新しいデータと過去のデータを活用してパターンを見つけ出し、将来の結果や傾向を予測する高度な分析手法です。予測分析では、{. . .}
予測型メンテナンスとは予測型メンテナンスとは、一言でいうと、予め定められたスケジュールだけでなく、設備の実際の状態や状況に基づき、いつ頃、具体的にどのようなメンテナンスを行うべきかを判断し、設備の稼働時間と生産性を最大化するためのものです。{. . .}
PyCharm とは、コンピュータプログラミングで使用される統合開発環境(IDE)です。プログラミング言語 Python 用に作成されています。PyCharm をデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。{. . .}
PySpark とは?Apache Spark は、プログラミング言語 Scala で記述されています。PySpark とは、Spark を実行するための Python API です。Apache Spark と Python のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)との、{. . .}
小売業におけるリアルタイムデータとは、データへのリアルタイムなアクセスを意味します。バッチ式のアクセス、分析、コンピューティングから、リアルタイムアクセスに移行することで、データは常時稼働の状態となり、正確でタイムリーな意思決定とビジネスインテリジェンスの推進が可能になります。{. . .}
レジリエントな分散データセット(RDD)とは、Spark のリリース以降、Spark の最も基本的なユーザー向け API です。コアとなる RDD は、クラスタ内のノード間で分割されたデータ要素の不変の分散コレクションで、{. . .}
スノーフレークスキーマとは、スタースキーマを拡張した多次元データモデルで、ディメンションテーブルがサブディメンションテーブルに細分化されたものです。{. . .}
Spark には、DataFrame、Dataset、耐障害性分散データセット(RDD)の 3 種の API があります。耐障害性分散データセット(RDD)は、分散コンピューティングを用いたレコードの集合体です。フォールトトレラントで不変な性質を有しています。{. . .}
Spark アプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは、main() 関数を実行し、クラスタのノード上で動作します。また、3つ の役割があり{. . .}
Elasticsearchとは、ドキュメント指向および半構造化データを格納、取得、管理する NoSQL 分散データベースです。GitHub のオープンソースである Elasticsearch は、Apache Lucene をベースに構築され、Apache ライセンスの条件下でリリースされた RESTful な検索エンジンでもあります。{. . .}
多くのデータサイエンティスト、アナリスト、一般的なビジネスインテリジェンスユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL は、構造化データ処理のための Spark モジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、{. . .}
Apache Spark ストリーミングは、Apache Spark の前世代ストリーミングエンジンです。Spark ストリーミングの今後の更新はなく、レガシープロジェクトとなります。Apache Spark には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。Spark 構造化ストリーミングをご使用ください。{. . .}
Spark パフォーマンスチューニングとは、システムが使用するメモリやコア、インスタンスなどを記録するための設定を調整する処理のことです。この処理により、Spark は優れた性能を発揮し、リソースのボトルネックの防止も可能になります。{. . .}
Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。{. . .}
SparkR とは、R 言語を Spark 上で動作させるためのツールです。Spark の他の言語バインディングと同じ原理に基づいています。SparkR を使用するには、環境にインポートしてコードを実行するだけです。Python ではなく R 言語の構文に従っていることを除けば、Python API と非常に類似しています。{. . .}
Python には、多次元配列を操作する NumPy と呼ばれるビルトインライブラリがあります。PyTensor ライブラリを開発するには、NumPy を使用することが第一の要件となります。{. . .}
スタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート、その他のツールに適用できます。{. . .}
ストリーミング分析の仕組み:ストリーミング分析(イベントストリーム処理とも呼ばれる)とは、イベントストリームという連続クエリを使用して、現在のデータと移動中のデータの膨大なデータプールを分析することです。このイベントストリームは、金融取引、設備故障、ソーシャルメディアへの投稿{. . .}
構造化ストリーミングとは、ストリーミングデータを処理するための高レベル API です。Spark 2.2 で実運用が可能になりました。構造化ストリーミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、 {. . .}
Google は、2015年11月に機械学習のためのフレームワークをオープンソースで公開し、TensorFlow と名付けました。CPU、GPU、GPU クラスタでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。{. . .}
Estimator は、完全な高位モデルを表しますが、多くのユーザーにとって直観的ではないようです。Estimator API とは、モデルを訓練して、その精度を評価し、推論を作成するためのメソッドを提供する高レベルAPIです。{. . .}
トランスフォーメーションとは:Spark では、コアとなるデータ構造は不変であり、一度作成したデータ構造は変更できないため、実際に使用する際に、最初はこの概念に疑問を抱くかもしれません。Spark で DataFrame を変更するためには、{. . .}
Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。 {. . .}
統合人工知能( UAI )は、開発者カンファレンス「F8 」で Facebook によって発表されました。UAI は Facebook 主導で開発された、PyTorch と Caffe の 2 つの深層学習フレームワークを統合したもので、PyTorch は大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。{. . .}
統合データ分析とは、データ処理を AI 技術と統合する新しいカテゴリのソリューションです。企業組織にとっての AI の実現可能性を格段に高め、AI への取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、 {. . .}
データブリックスの統合データ分析プラットフォームは、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。
{. . .}
統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。今日、多くの企業においてデータはサイロ化されています。{. . .}