メインコンテンツへジャンプ

Glossary

A-Z

ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNA を構成する原子の組成、および DNA 原子間の化学結合を決定することです。ゲノミクスの分野は、全体構造としてのゲノムに重点を置いており、生物の完全な遺伝物質の研究として定義することができます。DNA は 1869 年に初めて単離されましたが、ゲノミクスは、科学者が単純な生物の DNA シーケンスを決定した 1970 年代に始まったばかりです。ゲノミクスの分野で最{...}
デジタルツインとは IBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。デジタルツインは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー(OT:運用技術データ)やエンタープライズデータ(IT:情報技術)を用いてシステムやプロセスの状態データを収集し、仮想モデルを形成します。このモデルは、シミュレーションの実行、性能の問題の調査、知見の抽出に使用できます。 デジタルツインの概念は、特に新しいものではありません。{...}
データボルトとは Data Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。 ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。 データボルトは、レイクハウスのパラダイムを採用する組織に適したデ{...}
データマートとは データマートは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。一般的には、大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ、分析や BI(ビジネスインテリジェンス)、レポーティングに使用されます。データマートは、中央データウェアハウスと{...}
企業間におけるデータ共有とは データ共有(またはデータシェアリング)とは、同じデータを複数のユーザーで利用できるようにすることです。増加し続けるデータは、あらゆる企業にとって重要な戦略的資産です。組織内外におけるデータ共有は、新たなビジネスチャンスを生み出すカギとなる技術です。外部データを利用するだけでなく、データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データのマネタイズによる新たな収益源の確保が可能になります。 従来の企業間におけるデータ共有ソリューショ{...}
メダリオンアーキテクチャとは メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。   レイクハウスアーキテクチャのメリット シンプルなデータモデル わかりやすく、導入が容易 増分 {...}
金融サービスのパーソナライズとは 金融商品やサービスのコモディティ化が進み、メディアや小売業界がパーソナライズされた体験を好むようになったことで、消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で、銀行がこれからも必要とされ続けるためには、パーソナライズされた知見やレコメンド、財務目標の設定、レポート機能といった従来の銀行業務を超えた魅力的な銀行体験を提供する必要があり、これらは全て地理空間や自然言語処理(NLP)などの高度な分析機能によって実現されます。金融サービスの{...}
トランザクションとは データベースやデータストレージシステムにおけるトランザクションとは、1 つの作業単位として扱われるあらゆる操作のことです。トランザクションは、完全に実行される、もしくは全く実行されないかのいずれかで、ストレージシステムを一貫した状態に保ちます。トランザクションの典型的な例として、銀行の預金口座から現金を引き出す処理が挙げられます。この場合、預金口座から現金を引き出したか、もしくは全く引き出さなかったか、どちらかの処理が発生し、中間の状態はありません。 ACID 特性:原子性{...}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの 1 つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。 勾配降下法の種類 現在、機械学習や深層学習のアルゴリズムに使用されている勾配降下法は、主に3種類あります。 バッチ勾配降下法 3 種類の勾配降下法の中で、バッチ勾配降下法は一番容易な手法です。トレーニングデータセットの各データの誤差を計算しますが、トレーニングデータの計算が全て終了するまでモデルは更新されません。 確率的勾配降下法 確率的勾{...}
Apache Hive とは Apache Hive は、Apache Hadoop 分散ファイルシステム (HDFS) から抽出された大規模なデータセットの読み取り、書き込み、および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで、より規模の大きい Hadoop エコシステムの側面も持ち合わせています。 Apache Hiveの豊富なドキュメントと継続的なアップデートにより、Apache Hiveはアクセスしやすい方法でデータ処理に革新を{...}
Apache Kudu とは Apache Kudu とは、Apache Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。構造化データ用エンジンで、各行への低遅延でランダムなミリ秒スケールのアクセスに加えて、優れたアクセスパターン分析もサポートします。広く普及している Hadoop 分散ファイルシステム(HDFS)と NoSQL データベースの HBase 間をつなぐために作成されたビッグデータエンジンです。 Hadoop で BI{...}
Apache Kylin とは Apache Kylin とは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache Kylin は Hadoop や Spark でSQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。さらに、ODBC ドライバ、JDBC ドライバ、REST API を介して BI ツールと容易に統合します。2014年に eBay が構築した Apache Kylin は、わ{...}
Apache Spark とは Apache Spark は、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Spark は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoop システムでのジョブ処理を高速化する方法を模索していました。Apache Spark は Hadoop MapReduce&{...}
Catalyst オプティマイザとは、Spark SQL で主要な役割を果たす最適化機能です。Scala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。Catalyst は Scala の関数型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。 Spark SQLへの新しい最適化技術と機能の追加を容易にする 外部の開発者でもオプティマイザの拡張を実行できるようにする(データ{...}
深層学習において、畳み込みニューラルネットワーク(CNN または ConvNet)はディープニューラルネットワークの1つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理などさまざまな用途に対する導入事例もあります。畳み込みネットワークのアーキテクチャは人間の脳内のニューロン結合パターンに類似し、視覚野の組織構造に着想を得ました。人工ニューラルネットワーク関連のこのタイプは、ネットワークの最も重要な操作の一つである「畳み込み」から名{...}
Databricks ランタイムは、データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。Spark はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks ランタイムが他のランタイムよりも優れている点は次のとおりです。 優れたパフォーマンス:Databricks I/Oモジュール(DBIO)は、垂直統合スタックを活用してクラウドでのSpark{...}
DataFrame とは DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。 DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを含むことが可{...}
DNA シーケンスとは DNA シーケンスとは、DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化学構成要素(アデニン、グアニン、シトシン、チミン)の順序のDNAシーケンシングは、DNA分子内で発生します。DNA シーケンシングの最初の手法は、1970年代半ばにフレッド・サンガー(Fred Sanger)、ウォルター・ギルバート(Walter Gilbert)、アラン・マクサム(Allan Maxam)によって開発されました。配列決定された最{...}
Delta Live Tables Delta Live Tables(DLT)は、データパイプラインの構築と管理を容易にし、信頼性を向上させて Delta Lake に高品質データをもたらします。   Databricks ETL の 詳細   ETL とは ETL とは Extract(抽出)、Transform(変換)、Load(ロード)の頭文字をとった略語です。ETL は、さまざまなソースからデータを抽出し、取り扱いやすい形にデータを変換し、DWH などのデータシス{...}
Hadoop とは 「Hadoop」とは何を意味するのでしょうか。「Hadoop」とは何の略なのでしょうか?Hadoop は、High Availability Distributed Object Oriented Platform の略です。そして、これこそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。 Apache Hadoop とは、オープンソースの Java ベースのソフトウェアプラットフォームで、ビッグデータアプ{...}
Hadoop エコシステムとは Apache Hadoop エコシステムとは、Apache Hadoop ソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールの全てが含まれます。Hadoop エコシステムの最もよく知られているツールには、HDFS、Hive、Pig、YARN、MapReduce、Spark、HBase Oozie、Sqoop、Zookeeper、などがあります。開発者が頻繁に使用する主要な Hadoop エコシステ{...}
Hadoop クラスタとは Apache Hadoop とは、オープンソースの Java ベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、Hadoop クラスタ全体に分散させることができます。Hadoop クラスタとは、ビッグデータセットに対してこのような並列計算を実行するためにネットワーク化された、ノードと呼ばれるコンピュ{...}
HDFS HDFS ( Hadoop 分散ファイルシステム)は、 Hadoop アプリケーションで使用される主要なストレージシステムです。このオープンソースのフレームワークは、ノード間のデータ転送を高速に行うことで動作します。ビッグデータを取り扱い、保存する必要のある企業でよく利用されています。HDFS は、ビッグデータを管理し、ビッグデータ解析をサポートする手段として、多くの Hadoop システムにおいて重要なコンポーネントとなっています。 HDFS を利用している企業は世界中にたくさんあり{...}
ハイブ日付関数とは Hiveでは、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。 HIVE の組み込み関数の種類 日付関数 日付に日数を加算したり、他の類似の演算を追加するなど、日付データ型に対する操作を実行するために主に使用されます。 数学関数 主に数学的計算を実行するために使用されます。 条件関数 条件をテストするために使用され、テスト条件が真か偽かに基づいて値を返します{...}
Jupyter Notebook とは Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。 Jupyter Notebook の用途 Jupyter Notebook は、探索的データ解析(EDA)、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行{...}
Keras モデルとは? Keras とは、Theano と Tensorflow 上に構築された深層学習のためのハイレベルのライブラリです。Keras は、Python で記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Keras は、ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワーク API の 1 つです。現在では、ニューラルネットワークのレイヤーの作成や複雑なアーキテクチャの設定が、Keras{...}
LLMOps とは 大規模言語モデル運用(LLMOps)には、運用環境における大規模言語モデルの運用管理に使用されるプラクティス、テクニック、ツールが含まれます。 OpenAI の GPT、Google の Bard、Databricks の Dolly などのリリースに象徴されるように、LLM の最新の進歩は、LLM を構築し展開する企業の著しい成長を促していいます。そのため、これらのモデルの運用方法に関するベストプラクティスを構築する必要性が生じています。LLMOps は、大規模な言語モデル{...}
MapReduce とは MapReduce は、Apache Hadoop エコシステムの一部であり、Java ベースの分散実行フレームワークです。開発者が実装する Map 処理と Reduce 処理の 2 つの処理ステップを公開することで、分散プログラミングの複雑さを解消します。Map 処理では、データは並列処理するタスク間で分割されます。データの各チャンクには、変換ロジックを適用できます。Map 処理が完了すると Reduce 処理が行われ、Map 処理で分割されたデータの集約を実行します{...}
MLOps とは MLOps は、エムエルオプスと読み、Machine Learning Operations の略語で、機械学習(Machine Learning)と運用(Operations)を組み合わせた言葉です。言葉のとおり、機械学習の開発チーム、運用チーム、データサインティストなどが連携し、機械学習モデルを迅速かつ効率的に実際のビジネスに最適化させるための手法を指します。開発チームと運用チームが連携し、円滑な開発を進める DevOps の考え方を拡張し、機械学習の分野に特化させたのが {...}
データサイエンスに関していうと、 pandas DataFrame を使いこなすことで、ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし、そのためには適切なデータ構造が必要です。これらを上手く活用することで、データの操作や分析を最大限効率的にできるようになります。 この目的のために使える最も便利なデータストラクチャの1つが pandas DataFrame です。 pandas とは、プログラミング言語 Python でデータ分析を行うためのオープンソースのライブラリで{...}
Parquet とは Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。 Parqu{...}
PyCharm とは、コンピュータプログラミングで使用される統合開発環境(IDE)です。プログラミング言語 Python 用に作成されています。PyCharm をデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。 {...}
PySpark とは Apache Spark は、プログラミング言語 Scala で記述されています。PySpark とは、Spark を実行するための Python API です。Apache Spark とPython のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、これは Py4J ラ{...}
耐障害性分散データセット(RDD)とは、Spark のリリース以降、Spark の主要なユーザー向け API として利用されてきました。RDD は、クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり、変換その他の操作のための基礎的な API と並行して使用することが可能です。 RDD の使用が適した 5 つのケース データセットに対し、低レベルの変換やアクション、管理を実行する場合 所有データがメディアストリームやテキストストリームなどの非構造化データである場合 ドメイン固有言{...}
Sparkには、DataFrame、Dataset、RDDの3つのAPIがあります。 レジリエントな分散データセット(RDD)とは レジリエントな分散データセット(RDD)は、分散コンピューティングを用いたレコードコレクションです。フォールトトレラントで不変な性質を有しています。RDDは、低レベルAPIとの並列操作が可能で、遅延機能によりSparkの操作を迅速化します。また、RDDは2つの操作をサポートしています。 トランスフォーメーション —別の RDD を返す遅延操作。この RDD はアクシ{...}
Spark Elasticsearch とは Spark Elasticsearch とは、ドキュメント指向および半構造化データを格納、取得、管理する NoSQL 分散データベースです。GitHub オープンソースである Elasticsearch は、Apache Lucene をベースに構築され、Apache ライセンスの条件下でリリースされた RESTful な検索エンジンでもあります。 Elasticsearch は Java ベースであるため、さまざまな形式のドキュメントファイルを検索{...}
多くのデータサイエンティスト、アナリスト、一般的な BI ユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL とは、構造化データ処理のためのSparkモジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、分散型 SQL クエリエンジンとしても機能します。これにより、既存のデプロイやデータで未修正の Hadoop Hive クエリを最大 100 倍の速さで実行できるようになりました。また、他の Spark エコシステ{...}
Sparklyrとは Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spark 両{...}
SparkR とは、R 言語を Spark 上で動作させるためのツールです。Spark の他の言語バインディングと同じ原理に基づいています。SparkR を使用するには、環境にインポートしてコードを実行するだけです。Python ではなくR 言語の構文に従っていることを除けば、Python API と非常に類似しています。ほとんどの場合、Python で利用可能なものは、SparkR でも利用できます。 {...}
Spark アプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは、main() 関数を実行し、クラスタのノード上で動作します。また、3 つの役割があり、Spark アプリケーションに関する情報管理、ユーザーのプログラムや入力への応答、およびエグゼキュータ(瞬間的に定義)全体におけるタスクの分析、分散、スケジューリングを行います。ドライバプロセスは必要不可欠です。Sparkアプリケーションの中心であり、アプリケーションの{...}
Apache Spark ストリーミングは、Apache Spark の前世代ストリーミングエンジンです。Spark ストリーミングの今後の更新はなく、レガシープロジェクトとなります。Apache Spark には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。ストリーミングアプリケーションとパイプラインには、Spark 構造化ストリーミングをご使用ください。構造化ストリーミングの詳細はこちらでご覧いただけます。 Sparkストリーミングとは Apache{...}
Sparkパフォーマンスチューニングとは Sparkパフォーマンスチューニングとは、システムが使用するメモリやコア、インスタンスなどを記録するための設定を調整する処理のことです。この処理により、Sparkは優れた性能を発揮し、リソースのボトルネックの防止も可能になります。 データのシリアライズとは メモリ使用量を削減するために、Spark RDDをシリアル化して格納する必要があります。また、データのシリアライズは、ネットワークのパフォーマンスにも影響します。Sparkの性能を向上させるには、次の{...}
Python には、多次元配列を操作する NumPy と呼ばれるビルトインライブラリがあります。PyTensor ライブラリを開発するには、NumPy を使用することが第一の要件となります。Sptensor は、Sparse Tensor を表すクラスです。Sparse Tensor とは、エントリの大部分がゼロであるデータセットです。例としては、大規模な対角行列(多くがゼロ要素)が挙げられます。Tensor オブジェクトの値全体を保存するのではなく、非ゼロ値とそれに対応する座標を保存します。S{...}
Google は、2015年11月に機械学習のためのフレームワークをオープンソースで公開し、TensorFlow と名付けました。CPU、GPU、GPU クラスタでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。TensorFlow の最大の利点はそのコミュニティにあり、多くの開発者、データサイエンティスト、データエンジニアがオープンソースの開発に貢献しています。TensorFlow の現在のバージョンは、リリースノートとともに GitHub&nbs{...}
Tensorflow Estimator API とは Estimator は、完全なモデルを表しますが、ユーザーの多くに複雑な印象を与える傾向があります。Estimator API とは、モデルを訓練して、その精度を評価し、推論を作成するためのメソッドを提供する高レベル API です。下の図のように、TensorFlow は複数の API 層からなるプログラミングスタックを提供します。Estimator には、事前構築された Estimator と、独自でカスタマイズする Estim{...}
Tungsten プロジェクトとは Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。 Tungsten プロジェクトに含まれるイニシアティブ メモリ管理とバイナリ処理:アプリケーションのセマンティックスを活用してメモリを明示的に管理し、JVM オブジェクトモデルとガベージコレクションのオーバーヘッドを{...}
アノマリー検知とは、定常状態とは統計的に異なる不審なイベントや観測値を特定する手法です。異常検知とも呼ばれます。このような「異常」な挙動は、多くの場合に、クレジットカードの不正使用、マシンの故障、サイバー攻撃といった問題の存在を意味します。例えば、膨大な数のトランザクションの監視が必要な金融業界では、アノマリー検知がエラーの発生場所の特定や原因の分析を支援し、問題への迅速な対応を可能にします。また、検知した異常値をもとにしたアラートの発行にも活用され、担当者の行動を促します。そこから得られる情報{...}
オルタナティブ(代替)データとは オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし、正確には何をオルタナティブデータとみなすかは業界によって異なり、自社や競合他社で既に使用されている従来のデータソースに依存されています。 標準的なオルタナティブデータタイプ オルタナテ{...}
オーケストレーションとは オーケストレーションとは、複数のコンピュータシステム、アプリケーション、サービスを調整および管理し、大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは、自動化された複数タスクで構成され、複数のシステムをまたぐこともあります。 オーケストレーションは、頻繁に繰り返されるプロセスの実行を効率化および最適化し、データチームが複雑なタスクやワークフローを容易に管理できるようにします。プロセスはいつでも繰り返しが可能で、タスクは自{...}
オープンバンキングとは オープンバンキングとは、消費者の事前同意のもとに、消費者の金融データへのアクセスをセキュアに共有する方法です²。規制や技術革新、競合の勢いに後押しされ、オープンバンキングは、銀行以外の第三者や消費者などが顧客データをさらに活用できるよう、顧客データの民主化を呼びかけています。この技術革新は、銀行業界を他業界との高い連携性を持つプラットフォーム提供者へと進化させると同時に、銀行にエコシステムを拡大し、新規市場への参入機会を与えています。オープンバンキングを利用して、現在、多{...}
サプライチェーンマネジメント(SCM)とは サプライチェーンマネジメント(SCM)とは、製品やサービスを効率的かつ効果的に生産し、顧客に提供することを目的として、サプライチェーンのオペレーションを計画、実施、管理するプロセスです。製品やサービスの調達、生産、納品に関わるあらゆる活動の調整と最適化、また情報の流れや財務取引の管理も含まれます。 サプライチェーンマネジメントの主な要素には、サプライヤー管理、インベントリ管理、生産計画とスケジューリング、物流・輸送管理、顧客サービスなどがあります。効果{...}
サービスとしての Apache Spark(Apache Spark as Spark-as-a-Service)とは Apache Spark は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009 年に研究が開始されて以来、目覚ましい発展を遂げてきました。Apache Spark は現在、50 を超える組織から 200 名以上が参加する、ビッグデータの最大オー{...}
スタースキーマとは スタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。 1990 年代にラルフ・キンボールによって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの更新を効率的に行い、データウェアハウスでのデータの集計や{...}
ストリーミング分析の仕組み ストリーミング分析(イベントストリーム処理とも呼ばれる)とは、イベントストリームという連続クエリを使用して、現在のデータと移動中のデータの膨大なデータプールを分析することです。このイベントストリームは、金融取引、設備故障、ソーシャルメディアへの投稿、Web サイトのクリック、またはその他の測定可能なアクションなど、一連のアクションの直接的な結果として生じる特定のイベントによって動作します。データは、モノのインターネット(IoT)やトランザクション、クラウドアプリケーシ{...}
スノーフレークスキーマとは スノーフレークスキーマは、スタースキーマを拡張した多次元データモデルで、ディメンションテーブルがサブディメンションテーブルに細分化されたものです。スノーフレークスキーマは、データウェアハウスやデータマート、リレーショナルデータベースの多次元分析を使用した BI(ビジネスインテリジェンス)やレポーティングによく使用されています。 スノーフレークスキーマでは、エンジニアがそれぞれのディメンションテーブルを論理的なサブディメンションに細分化します。このため、データモデルは複{...}
データウェアハウス(DWH)とは? データウェアハウス(DWH)は、複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。主に、ビジネスインテリジェンス(BI)、レポート作成、データ分析に使用されます。データウェアハウスでは、POS システム、インベントリ管理システム、マーケティングや販売データベースなどの業務システムに蓄積されたデータを、迅速かつ容易に分析可能です。データは、オペレーショナルデータストア(ODS){...}
データガバナンスとは データガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。 ビジネスにおけるデータガバナンスのメリット データの量と複雑さの増大に伴い、コアビジネスの強化につながるデータガバナンスに注目しています。データガバナンスはビジネスに次のようなメリットをもたらします。 データの品質:{...}
現在の高度に接続された世界では、サイバーセキュリティの脅威やインサイダーリスクは常に懸念されています。組織は、保有するデータの種類を可視化し、データの不正使用を防止し、データにまつわるリスクを特定して軽減する必要があります。以下のセクションでは、データセキュリティが不可欠な理由、一般的なデータセキュリティリスク、不正アクセス・盗難・破損・ポイズニング・偶発的な紛失から組織を守るためのデータセキュリティのベストプラクティスについて解説します。 データセキュリティとは データセキュリティとは、データ{...}
データセットとは データセットとは、分析や処理のために組織化され、一緒に保存されたデータの構造化されたコレクションです。データセット内のデータは通常、何らかの形で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。例えば、データセットには、ビジネスデータ(売上高、顧客の連絡先情報、トランザクションなど)のコレクションが含まれている場合があります。データセットには、数値からテキスト、画像、音声記録まで、さまざまな種類のデータを含められます。データセット内のデータは通常{...}
データを扱う仕事をしていれば、自覚の有無にかかわらず、データパイプラインに一度は接したことがあるはずです。 現代の組織の多くは、さまざまなクラウドベースのプラットフォームやテクノロジーを利用して業務を遂行しており、データパイプラインは、これらのプラットフォームから情報にアクセスするうえでで重要な役割を担っています。 データパイプラインのさまざまなタイプ、その使用方法、組織でデータパイプラインを構築するためのベストプラクティスをご紹介します。 データパイプラインとは データパイプラインとは、あるシ{...}
データプラットフォームとは データプラットフォームとは、企業が抱える膨大なデータの統合、管理、分析を行うためのデータ基盤のことです。さまざまなデータソースの情報を一元管理することで、より迅速なデータ分析やデータ処理、社内間におけるスムーズなデータ共有などを可能にします。包括的なデータプラットフォームには、予測分析、データ視覚化、ロケーションインテリジェンス(LI)、自然言語処理(NLP)、コンテンツ分析など、さまざまな機能を搭載した複数のツールが組み込まれています。その主な目的は、あらゆる種類の{...}
データマーケットプレイスまたはデータマーケットとは データマーケットプレイスまたはデータマーケットは、データの共有とコラボレーションを可能にするオンラインストアです。データプロバイダとデータ消費者を結びつけ、高品質で一貫性のあるデータ資産を供給するセキュアな環境で、データや関連サービスを売買する機会を提供します。企業はマーケットプレイスを利用して、自社のデータセットを強化したり、データを収益化したり、データ製品やサービスを提供することができます。 {...}
データレイクハウスとは? データレイクハウスとは、データレイクとデータウェアハウス(DWH)の課題を解決するデータ管理における新たなオープンアーキテクチャです。わかりやすくいうと次世代のデータ管理システムのことです。データレイクハウスでは、従来から活用していた構造化データに加え、AI や機械学習の活用に欠かすことのできない非構造化データを柔軟に組み合わせて分析を行うことができます。 データレイクハウスでできること データレイクハウスは新たなオープンシステムデザインによって構築されており、データウ{...}
データ変換とは データ変換とは、データソースから抽出された未加工データを利用可能なデータセットに変換するプロセスです。多くの場合、データパイプラインには複数のデータ変換が含まれ、煩雑な情報をクリーンで質の高い、信頼できるデータに変換します。組織はこのデータを活用して運用ニーズを満たし、実用的なインサイトを取得できます。データ変換プロセスは、データエンジニアリングにおける重要なプロセスです。 {...}
データの量、データソース、データの種類の増大に伴い、組織はデータを変換し、ビジネスインサイトを導き出すためのツールや戦略をますます必要としています。未加工の煩雑なデータをクリーンで高品質なデータに処理することは、これを実現するための重要なステップです。以下のセクションでは、データ自動化とその使用方法について説明し、組織内でデータ自動化プラクティスを構築するためのベストプラクティスを考察します。 データ自動化とは? データ自動化は、データ管理の手法としてますます普及しています。データ自動化により、{...}
トランスフォーメーションとは: Sparkでは、コアとなるデータ構造は不変であり、一度作成したデータ構造は変更できないため、実際に使用する際に、最初はこの概念に疑問を抱くかもしれません。SparkでDataFrameを変更するためには、Sparkに対し、既存のDataFrameをどのように修正したいかを指示する必要があります。この指示をトランスフォーメーションと呼びます。トランスフォーメーションとは、Sparkを使用してビジネスロジックをどのように記述するかの中心となるものです。トランスフォーメ{...}
ニューラルネットワークとは ニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。ニューラルネットワークは、入力層と出力層で構成されており、その多くには隠れ層があります。この隠れ層は、入力を出力層で使用できるものに変換するユニットで構成されています。 ニューラルネットワークアーキテクチャのタイプ 人工ニューラルネットワークとしても知られるニューラルネットワークは{...}
コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値をみつけます。使用されるキーの主な特徴は次のとおりです。 社会保障番号、電話番号、口座番号などのキーを使用します。 キーは一意である必要があります。 各キーは、値に関連付け(マッピング)されます。 ハッシュバケットは、{...}
バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。 バイオインフォマティクスは、生物学のデータの保存、取得、整理、分析を行うバイオテクノロジーにITを活用することを指します。膨大なデータ量がゲノム配列決定プロジェクトや他の研究から生成されており、このデータ急増により、実に生物学における課題のほとんどは、膨大な計算の必要性に迫られています。バイオインフォマティクスという用語は、1970年にポーリーン・ホフヴェイ(Paulien Hog{...}
データ分析とビッグデータ分析の違い Hadoop が開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析はスモールデータに制限されていました。しかし、このような比較的簡易な形式でも、特に新しいデータソースの統合においては、分析が困難なケースが生じていました。従来のデータ分析は構造化データのテーブルで構成されたリレーショナルデータベース(SQL データベースなど)の使用に依存しています。データを分析用のデータベースに取り込む前に、未加工データの各バ{...}
ベイジアンニューラルネットワークとは ベイジアンニューラルネットワーク(BNN)とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。プログラミング言語において、特定の値を取得できる変数は、その特定の変数にアクセスする度に同じ結果になります。まず、一連の入力特徴量の加重和に{...}
ホスト型の Spark とは Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の Grap{...}
データブリックスの Delta パイプラインとマテリアライズドビュー 概要 Delta パイプラインは、データパイプラインのライフサイクルを管理する API と UI を提供します。オープンソースのフレームワークがデータエンジニアリングチームによる ETL の開発をシンプルにし、データの信頼性を向上させ、運用の拡張を支援します。データ変換のコーディングやジョブのスケジューリングを行う代わりに、宣言型パイプラインを構築することで、データの最終状態を容易に定義できます。さまざまなタスク間の依存関係を{...}
マネージドSparkとは マネージド Spark は、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易し、タスクが完了したときにクラスタをオフにすることができます。ワークロード、パフォーマンス要件、または既存のリソースに基づいてクラスタのサイズを設定することも可能です。さらに、ほんの数秒で動的にスケールアップおよびスケールダウンできる、完全{...}
Databricks Delta Talbes のマルチステートメントトランザクション Databricks は、基礎となるテーブルがDatabricks Delta Talbes である場合、マルチステートメントトランザクションをサポートします。これは、トランザクション内のすべてのステートメントがアトミック(全て成功する/全て失敗する)であることを意味します。 2 つのスレッド/ユーザーのタイムラインの例を考えてみます。スレッド 1 はUPDATE スレッドであり、スレッド 2 はリーダー/ク{...}
モデルリスク管理とは、モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。金融サービスにおけるモデルリスクとは、精度が低いモデルを使用して意思決定を行うことで生じる損失リスクを意味します。多くの場合は金融証券の評価に使用され、消費者信用スコアの付与、クレジットカードの不正取引のリアルタイムな確率予測、マネーロンダ{...}
ラムダアーキテクチャとは ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。 バッチレイヤー 新しいデータは、データシステムへのフィードとして継続的に提供されます。データはバッチレイヤーとスピードレイヤーに同時に供給されます。全てのデータを一度に調べ、最終的にストリーム{...}
小売業におけるリアルタイムデータ 小売業におけるリアルタイムデータとは、データへのリアルタイムなアクセスを意味します。バッチ式のアクセス、分析、コンピューティングからリアルタイムアクセスに移行することで、データは常時稼働の状態となり、正確でタイムリーな意思決定とビジネスインテリジェンス(BI)の推進が可能になります。需要予測、パーソナライゼーション、店頭在庫の可用性、到着時間予測、オーダーピッキングとコンソリデーションといったリアルタイムのユースケースは、サプライチェーンのアジリティ向上、サービ{...}
リアルタイム分析とは リアルタイム分析とは、ストリーミングデータを生成時に収集して分析することをいいます。データの生成から分析までのレイテンシを最小限に抑えることができます。リアルタイム分析は、広告やオファーのパーソナライズ、スマートプライシング、予測メンテナンスをはじめ、データの適時性が重要なアプリケーションでよく利用されます。リアルタイム分析は、データストリーミングの基本機能に基づいて構築されています。 データストリーミングとは データ処理には、バッチ処理とストリーミング処理の2種類がありま{...}
リテール向けレイクハウス リテール向けレイクハウスは、Databricks 初の業界特化型レイクハウスです。ソリューションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。 リテール向けレイクハウスは、テクノロジー、パートナー、ツール、業界イニシアチブの集大成であり、データと AI における強力なコラボレーションを推進します。リテール向けレイクハウスの主要な構成要素は、次の 4 つです。 データと AI の統合プラットフォーム:現代{...}
予測分析とは 予測分析とは、新しいデータと過去のデータを活用してパターンを見つけ出し、将来の結果や傾向を予測する高度な分析手法です。 予測分析の仕組み 予測分析では、統計分析技術、分析クエリ、データマイニング、予測モデリング、自動機械学習アルゴリズムなどの多くの技術をデータセットに使用して、特定の事象が発生する可能性を数値化し、what-if シナリオやリスク評価などを含む予測モデルを作成します。予測分析により、組織はデータに含まれるパターンを見つけて利用することで、リスクと機会を検出することが{...}
予測型メンテナンスとは 予測型メンテナンスとは、一言でいうと、予め定められたスケジュールだけでなく、設備の実際の状態や状況に基づき、いつ頃、具体的にどのようなメンテナンスを行うべきかを判断し、設備の稼働時間と生産性を最大化するためのものです。故障を予測や予防し、適切な定期メンテナンスを実施することで、コストのかかる機器のダウンタイムを削減できます。 IoT とセンサーデータが機器からストリーミングされることで、予測型メンテナンスは、製造業者が効率的に機械が停止するタイミングを予測することを可能に{...}
人工ニューラルネットワークとは 人工ニューラルネットワーク(ANN)とは、人間の脳内にある神経細胞(ニューロン)の動作を模したコンピューティングシステムです。 人工ニューラルネットワークの仕組み 人工ニューラルネットワーク(ANN)は、階層で構成される重み付き有向グラフにするとわかりやすく、これらの階層は人間の脳の生体ニューロンを模した多数のノードを特徴とし、相互に接続され、活性化関数を含みます。第1層は、外部から未処理の入力信号を受信します。人間の視覚処理における視神経に類似しています。中間層{...}
大規模言語モデル(LLM)とは 大規模言語モデル(LLM)は、自然言語処理(NLP)モデルの新しいクラスです。自由形式の質問への回答、チャット、コンテンツの要約、任意に近い命令の実行、翻訳、コンテンツやコードの生成などのさまざまなタスクにおいて、従来のモデルを大きく上回る性能と能力があります。LLM は、高度な機械学習アルゴリズムを使用して膨大なデータセットからトレーニングされ、人間の言語のパターンや構造を学習します。 {...}
検索拡張生成(RAG)とは 検索拡張生成(RAG)は、カスタムデータを活用することで大規模言語モデル(LLM)アプリケーションの有効性を向上させるアーキテクチャアプローチです。質問やタスクに関連するデータや文書を検索し、LLM のコンテキストとして提供することRAG は、最新の情報を維持したり、ドメイン固有の知識にアクセスする必要があるチャットボットや Q&A システムのサポートに活用されています。 {...}
構造化ストリーミングとは、ストリーミングデータを処理するための高レベル API です。Spark 2.2 で実運用が可能になりました。構造化ストリーミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、インクリメンタル処理が可能になります。構造化ストリーミングの最大のメリットは、事実上コードを変更することなく、ストリーミングシステムから迅速に価値を引き出すことができることです。また、バッチジョブを{...}
通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。各ステージに利用できるライブラリは多数ありますが、特に大規模なデータセットを使用する場合、それぞれのライブラリを全体につなげる作業は容易ではありません。また、ほとんどの機械学習ライブラリは、分散計算用には設計されていないか、パイプライン{...}
機械学習モデルとは 機械学習モデルとは、未知のデータセットからパターンを発見したり、判断を導き出すプログラムのことです。例えば、自然言語処理では、機械学習モデルにより、これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し、正しく認識できます。また、画像認識では、機械学習モデルを学習させることで、車や犬などのオブジェクトを認識できます。機械学習モデルは、大規模なデータセットを用いて「トレーニング」することで、上述のようなタスクの実行が可能になります。トレーニングでは、機械学習アル{...}
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティ{...}
深層学習とは 深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。深層学習は、データ表現の学習に基づく機械学習手法の1つで、従来のタスク固有のアルゴリズムとは異なります。 深層学習の仕組み 深層学習では、コンピュータモデルが、画像、言語、または音声から直接分類タスクを実行できるように学習します。タスクを繰り返し実行して、結果改善のための微調整を行います。深層学習{...}
機械学習のための特徴量エンジニアリング 特徴量エンジニアリングは、未加工データを機械学習モデルの開発に利用可能な特徴量に変換するプロセスで、データ前処理とも呼ばれています。ここでは、特徴量エンジニアリングの主要な概念と、MLのライフサイクル管理における役割について説明します。 機械学習における特徴量とは、モデルのトレーニングに使用される入力データのことです。これらは、モデルが学習するエンティティの属性です。未加工データは通常、ML モデルの入力として使用する前に処理する必要があります。優れた特徴{...}
生成 AI は人間の創造、仕事、コミュニケーションの方法を変えようとしています。Databricks が生成 AI の仕組みと今後の方向性について解説します。 {...}
総合人工知能( UAI )は、開発者カンファレンス「F8 」で Facebook によって発表されました。UAI は Facebook 主導で開発された、PyTorch と Caffe の 2 つの深層学習フレームワークを統合したもので、PyTorch は大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。スコープが狭い Facebook の統合 AI とは異なり、統合{...}
統合データウェアハウスとは 統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。今日、多くの企業においてデータはサイロ化されています。データの品質、統合、ガバナンスの保守や、メタやマスターデータ、B2B データ交換、データベース、アーキテクチャの管理など、同じ組織内の異なるそれぞれの部門で、多様なデータをさまざまなツールで管理しています。大企業におけるデータウェアハウス( D{...}
統合データ分析とは、データ処理を AI 技術と統合する新しいカテゴリのソリューションです。企業組織にとっての AI の実現可能性を格段に高め、AI への取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、モデル構築のラベル付きデータセットの準備が容易になるため、組織は既存のデータに AI を実行したり、大規模なデータセットに対して AI を繰り返し実行したりできるようになります。 また、統合データ分析では、幅広い A{...}
データブリックスの統合データ分析プラットフォーム は、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。また、このプラットフォームでは、あらゆる人工知能アプリケーションに対して ML モデルを継続的にトレーニングしてデプロイすることも可能です。統合データ分析プラットフォームを使用するメリットのトップ 3 は{...}
自動化バイアスとは 自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。認知的努力を最小限に抑え、「自動化バイアス」に依存しがちなのは、人間の傾向性ですが、大規模なデータからの学習をベースとするAIや自動化機能にも同様の傾向性が当てはまる懸念があります。このタイプのコンピューテーション{...}
複合イベント処理(CEP)とは 複合イベント処理(CEP)とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。複合イベント処理は、多くの異なる情報を集約するのに有用で、イベント間の因果関係をリアルタイムで特定、分析する整理ツールです。CEPでは連続的に収集されるイベントをパターンと照合し、イベント内容についての洞察の提供、効果的なアクションの積極的な実行を可能にします。{...}
設備総合効率( OEE )とは 設備総合効率( OEE ) は、 製造 におけるオペレーションが、予定されている期間中に、その潜在的な能力(設備、時間、材料)に対して、どれだけ利用されているかを示す指標です。製造時間のうち、実際の稼働時間の割合を特定することができます。OEE は、離散的または連続的なプロセスの総合的な性能を示すダッシュボードです。OEE は 100% で最大となり、良い部品だけが( 100% 品質)、最高速度で( 100%&nb{...}
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。連続実行アプリケーションが処理できるユースケースは次のとおりです。 リアルタイムで提供されるデータの更新:開発者は、更新と提供(SparkのJDBCサーバ経由など)の{...}
需要予測とは 需要予測とは、消費者の需要(将来収益)を予測するプロセスです。具体的には、定量的および定性的データを使用して、消費者が購入する商品の品揃えを予測します。 小売業者は、消費者が求めるタイミングで商品を提供できないことで、1 兆円規模の収益機会を逃しています。低精度の需要予測は、需要に即していない商品の陳列につながり、さらには、店頭の在庫切れなどの大きな問題を引き起こします。 リテール向けレイクハウスによる需要予測 リテール向けレイクハウスは、データへのリアルタイムなアクセスを可能にし{...}
高密度テンソルとは、全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は、多様な多次元データ分析アプリケーションで使用されます。さまざまなオープンソースのサードパーティツールボックスによって拡張された MATLAB suite など、テンソル計算を実行できるソフトウェア製品は数多くあります。MATLAB 単体でも、さまざまな要素ごとおよびバイナリの密なテンソル演算をサポートしています。各ニューロンが前の層の全てニューロンからの入力を受け取り、高密度で接{...}