用語集アーカイブ｜Databricksサイト名

Glossary

A-Z

ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNA を構成する原子の組成、および DNA 原子間の化学結合を決定することです。ゲノミクスの分野は、全体構造としてのゲノムに重点を置いており、生物の完全な遺伝物質の研究として定義することができます。DNA は 1869 年に初めて単離されましたが、ゲノミクスは、科学者が単純な生物の DNA シーケンスを決定した 1970 年代に始まったばかりです。ゲノミクスの分野で最{...}

デジタルツイン

デジタルツインとは IBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。デジタルツインは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー（OT：運用技術データ）やエンタープライズデータ（IT：情報技術）を用いてシステムやプロセスの状態データを収集し、仮想モデルを形成します。このモデルは、シミュレーションの実行、性能の問題の調査、知見の抽出に使用できます。デジタルツインの概念は、特に新しいものではありません。{...}

データボルト

データボルトとは Data Vault（データボルト）とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトには、ハブ、リンク、サテライトの 3 種類のエンティティがあります。ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。データボルトは、レイクハウスのパラダイムを採用する組織に適したデ{...}

データマート

データマートとはデータマートは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。一般的には、大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ、分析や BI（ビジネスインテリジェンス）、レポーティングに使用されます。データマートは、中央データウェアハウスと{...}

金融サービスのパーソナライズ

金融サービスのパーソナライズとは金融商品やサービスのコモディティ化が進み、メディアや小売業界がパーソナライズされた体験を好むようになったことで、消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で、銀行がこれからも必要とされ続けるためには、パーソナライズされた知見やレコメンド、財務目標の設定、レポート機能といった従来の銀行業務を超えた魅力的な銀行体験を提供する必要があり、これらは全て地理空間や自然言語処理（NLP）などの高度な分析機能によって実現されます。金融サービスの{...}

ACID トランザクション (ACID transaction)

トランザクションとはデータベースやデータストレージシステムの文脈では、トランザクションは、完全に完了するか全く完了しないかのいずれかで、ストレージシステムを一貫した状態に保つ単一の作業単位として扱われる任意の操作です。トランザクションの典型的な例は、銀行口座からお金を引き出すときに起こることです。お金が銀行口座から出ているか、出ていないかのどちらかです - 中間状態は存在しません。 {...}

AdaGrad

機械学習や深層学習における最適化のための最も一般的なアルゴリズムの 1 つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。勾配降下法の種類現在、機械学習や深層学習のアルゴリズムに使用されている勾配降下法は、主に3種類あります。バッチ勾配降下法 3 種類の勾配降下法の中で、バッチ勾配降下法は一番容易な手法です。トレーニングデータセットの各データの誤差を計算しますが、トレーニングデータの計算が全て終了するまでモデルは更新されません。確率的勾配降下法確率的勾{...}

AIエージェント (AI Agents)

人工知能（AI）エージェントは、AIの力を活用する画期的な方法です。従来のAIシステムはユーザーからの継続的な入力を必要とするのに対し、AIエージェントは環境と相互作用し、関連データを収集し、ユーザーの目標を達成するためにタスクを実行するエージェンシーを持つインテリジェントなソフトウェアシステムです。人間が目標を設定する一方で、AIエージェントはその目標を達成するための最善の方法を決定します。簡単に言うと、従来のAIシステムは、ユーザーのプロンプトに基づいて情報を提供します。エージェントは、利{...}

AIモデルの理解

AIモデルとは？ AIモデルとは、データを使用してパターンを認識し、予測や意思決定を行うコンピュータプログラムです。AIモデルはアルゴリズム（算術、反復、意思決定ロジックに基づく段階的ルール）を使用します。これにより、推論、学習、問題解決など、人間のような機能を人間の介入なしに実行することができます。 AI モデルは情報を分析し、複雑で動的な問題を解決し、大量のデータを使用して知見を提供することに長けています。意思決定を迅速化し、人間よりもはるかに効率的で正確なものにします。AIモデルはすべて{...}

Apache Hive

Apache Hive とは Apache Hive は、Apache Hadoop 分散ファイルシステム (HDFS) から抽出された大規模なデータセットの読み取り、書き込み、および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで、より規模の大きい Hadoop エコシステムの側面も持ち合わせています。 Apache Hiveの豊富なドキュメントと継続的なアップデートにより、Apache Hiveはアクセスしやすい方法でデータ処理に革新を{...}

Apache Kudu

Apache Kudu とは Apache Kudu とは、Apache Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。構造化データ用エンジンで、各行への低遅延でランダムなミリ秒スケールのアクセスに加えて、優れたアクセスパターン分析もサポートします。広く普及している Hadoop 分散ファイルシステム（HDFS）と NoSQL データベースの HBase 間をつなぐために作成されたビッグデータエンジンです。 Hadoop で BI{...}

Apache Kylin

Apache Kylin とは Apache Kylin とは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理（OLAP）エンジンです。Apache Kylin は Hadoop や Spark でSQL インターフェイスと多次元分析（OLAP）を提供するよう設計されています。さらに、ODBC ドライバ、JDBC ドライバ、REST API を介して BI ツールと容易に統合します。2014年に eBay が構築した Apache Kylin は、わ{...}

Apache Spark

Apache Spark とは Apache Spark は、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Spark は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoop システムでのジョブ処理を高速化する方法を模索していました。Apache Spark は Hadoop MapReduce&{...}

ビジネスインテリジェンスとは何ですか？ビジネスインテリジェンス（BI）は、ビジネスデータを分析し、実用的な洞察を導き出すための技術、プロセス、戦略の総称です。BIシステムは、原始的なデータを意味のある情報に変換し、より戦術的かつ戦略的な意思決定を支援します。BIツールを使用すると、ユーザーは幅広いデータにアクセスし、それを分析してビジネスをよりよく理解することができます。ビジネスインテリジェンスの重要性と利点 BIは、正確かつ最新のデータに基づいて情報を提供し、組織がより戦略的な意思決定を行{...}

Business intelligence tools overview

Business intelligence (BI) tools are a critical category of software applications designed to collect, process, analyze and present business data in meaningful ways. At their core, these tools transform raw data into actionable insights that drive st{...}

Catalystオプティマイザ

Catalyst オプティマイザとは、Spark SQL で主要な役割を果たす最適化機能です。Scala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。Catalyst は Scala の関数型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。 Spark SQLへの新しい最適化技術と機能の追加を容易にする外部の開発者でもオプティマイザの拡張を実行できるようにする（データ{...}

Convolutional Layer：畳み込み層

深層学習において、畳み込みニューラルネットワーク（CNN または ConvNet）はディープニューラルネットワークの１つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理などさまざまな用途に対する導入事例もあります。畳み込みネットワークのアーキテクチャは人間の脳内のニューロン結合パターンに類似し、視覚野の組織構造に着想を得ました。人工ニューラルネットワーク関連のこのタイプは、ネットワークの最も重要な操作の一つである「畳み込み」から名{...}

Data Ingestion

Data ingestion is the first step in the data engineering lifecycle. It involves gathering data from diverse sources such as databases, SaaS applications, file sources, APIs and IoT devices into a centralized repository like a data lake, data warehous{...}

Databricks Runtime

Databricks ランタイムは、データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。Spark はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks ランタイムが他のランタイムよりも優れている点は次のとおりです。優れたパフォーマンス：Databricks I/Oモジュール（DBIO）は、垂直統合スタックを活用してクラウドでのSpark{...}

DataFrames

DataFrame とは DataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。 DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを含むことが可{...}

DNA シーケンス

DNA シーケンスとは DNA シーケンスとは、DNA（デオキシリボ核酸）のヌクレオチドの正確な配列を決定するプロセスです。DNA シーケンシングは、塩基（アデニン、チミン、シトシン、グアニン）の配列順を決定する技術であり、DNA 分子内の情報を読み取ります。DNA シーケンシングの最初の手法は、1970年代半ばにフレッド・サンガー（Fred Sanger）、ウォルター・ギルバート（Walter Gilbert）、アラン・マクサム（Allan Maxam）によって開発されました。配列決定された最{...}

ETL：抽出・変換・格納

DLT DLTは、データパイプラインの構築と管理を容易にし、信頼性を向上させて Delta Lake に高品質データをもたらします。 Databricks ETL の詳細 ETL とは ETL とは Extract（抽出）、Transform（変換）、Load（ロード）の頭文字をとった略語です。ETL は、さまざまなソースからデータを抽出し、取り扱いやすい形にデータを変換し、DWH などのデータシステムに書き出すプロセスです。これにより、ダウンストリームでビジネス{...}

Hadoop

Hadoop とは「Hadoop」とは何を意味するのでしょうか。「Hadoop」とは何の略なのでしょうか？Hadoop は、High Availability Distributed Object Oriented Platform の略です。そして、これこそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。 Apache Hadoop とは、オープンソースの Java ベースのソフトウェアプラットフォームで、ビッグデータアプ{...}

Hadoop エコシステム

Hadoop エコシステムとは Apache Hadoop エコシステムとは、Apache Hadoop ソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールの全てが含まれます。Hadoop エコシステムの最もよく知られているツールには、HDFS、Hive、Pig、YARN、MapReduce、Spark、HBase Oozie、Sqoop、Zookeeper、などがあります。開発者が頻繁に使用する主要な Hadoop エコシステ{...}

Hadoop クラスタ

Hadoop クラスタとは Apache Hadoop とは、オープンソースの Java ベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム（MapReduce アルゴリズムなど）を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、Hadoop クラスタ全体に分散させることができます。Hadoop クラスタとは、ビッグデータセットに対してこのような並列計算を実行するためにネットワーク化された、ノードと呼ばれるコンピュ{...}

Hadoop 分散ファイルシステム（HDFS）

HDFS HDFS （ Hadoop 分散ファイルシステム）は、 Hadoop アプリケーションで使用される主要なストレージシステムです。このオープンソースのフレームワークは、ノード間のデータ転送を高速に行うことで動作します。ビッグデータを取り扱い、保存する必要のある企業でよく利用されています。HDFS は、ビッグデータを管理し、ビッグデータ解析をサポートする手段として、多くの Hadoop システムにおいて重要なコンポーネントとなっています。 HDFS を利用している企業は世界中にたくさんあり{...}

Hive 日付関数

ハイブ日付関数とは Hiveでは、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。 HIVE の組み込み関数の種類日付関数日付に日数を加算したり、他の類似の演算を追加するなど、日付データ型に対する操作を実行するために主に使用されます。数学関数主に数学的計算を実行するために使用されます。条件関数条件をテストするために使用され、テスト条件が真か偽かに基づいて値を返します{...}

Introduction to business intelligence platforms

A business intelligence (BI) platform is a comprehensive technology solution that helps organizations gather, understand and visualize their data to make informed business decisions. These platforms serve as the technological backbone of a company’s {...}

Jupyter Notebook

Jupyter Notebook とは Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。 Jupyter Notebook の用途 Jupyter Notebook は、探索的データ解析（EDA）、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行{...}

Keras モデル

Keras モデルとは？ Keras とは、Theano と Tensorflow 上に構築された深層学習のためのハイレベルのライブラリです。Keras は、Python で記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Keras は、ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワーク API の 1 つです。現在では、ニューラルネットワークのレイヤーの作成や複雑なアーキテクチャの設定が、Keras{...}

Lambda Architecture：ラムダアーキテクチャ

ラムダアーキテクチャとはラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。 {...}

LLMOps

LLMOps とは大規模言語モデル運用（LLMOps）には、運用環境における大規模言語モデルの運用管理に使用されるプラクティス、テクニック、ツールが含まれます。 OpenAI の GPT、Google の Bard、Databricks の Dolly などのリリースに象徴されるように、LLM の最新の進歩は、LLM を構築し展開する企業の著しい成長を促していいます。そのため、これらのモデルの運用方法に関するベストプラクティスを構築する必要性が生じています。LLMOps は、大規模な言語モデル{...}

Machine Learning Models

What is a machine learning Model? A machine learning model is a program that can find patterns or make decisions from a previously unseen dataset. For example, in natural language processing, machine learning models can parse and correctly recognize {...}

MapReduce

MapReduce とは MapReduce は、Apache Hadoop エコシステムの一部であり、Java ベースの分散実行フレームワークです。開発者が実装する Map 処理と Reduce 処理の 2 つの処理ステップを公開することで、分散プログラミングの複雑さを解消します。Map 処理では、データは並列処理するタスク間で分割されます。データの各チャンクには、変換ロジックを適用できます。Map 処理が完了すると Reduce 処理が行われ、Map 処理で分割されたデータの集約を実行します{...}

MLOps

MLOps とは MLOps は、エムエルオプスと読み、Machine Learning Operations の略語で、機械学習（Machine Learning）と運用（Operations）を組み合わせた言葉です。言葉のとおり、機械学習の開発チーム、運用チーム、データサインティストなどが連携し、機械学習モデルを実ビジネスに効果的に展開・運用するための手法を指します。開発チームと運用チームが連携し、DevOps の原則を拡張して、機械学習のモデルの運用に適用したのが MLOps です。 ML{...}

pandas DataFrame

データサイエンスに関していうと、 pandas DataFrame を使いこなすことで、ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし、そのためには適切なデータ構造が必要です。これらを上手く活用することで、データの操作や分析を最大限効率的にできるようになります。この目的のために使える最も便利なデータストラクチャの1つが pandas DataFrame です。 pandas とは、プログラミング言語 Python でデータ分析を行うためのオープンソースのライブラリで{...}

Parquet

Parquet とは Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。グローバルデータおよ{...}

PyCharm

PyCharm とは、コンピュータプログラミングで使用される統合開発環境（IDE）です。プログラミング言語 Python 用に作成されています。PyCharm をデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。 {...}

PySpark

PySpark とは Apache Spark は、プログラミング言語 Scala で記述されています。PySpark とは、Spark を実行するための Python API です。Apache Spark とPython のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset（RDD）とのインターフェイスもサポートしており、これは Py4J ラ{...}

Resilient Distributed Dataset：耐障害性分散データセット（RDD）

耐障害性分散データセット（RDD）とは、Spark のリリース以降、Spark の主要なユーザー向け API として利用されてきました。RDD は、クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり、変換その他の操作のための基礎的な API と並行して使用することが可能です。 RDD の使用が適した 5 つのケースデータセットに対し、低レベルの変換やアクション、管理を実行する場合所有データがメディアストリームやテキストストリームなどの非構造化データである場合ドメイン固有言{...}

Spark API

Sparkには、DataFrame、Dataset、RDDの3つのAPIがあります。レジリエントな分散データセット(RDD)とはレジリエントな分散データセット(RDD)は、分散コンピューティングを用いたレコードコレクションです。フォールトトレラントで不変な性質を有しています。RDDは、低レベルAPIとの並列操作が可能で、遅延機能によりSparkの操作を迅速化します。また、RDDは2つの操作をサポートしています。トランスフォーメーション —別の RDD を返す遅延操作。この RDD はアクシ{...}

Spark Applications：Sparkアプリケーション

Spark アプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは、main() 関数を実行し、クラスタのノード上で動作します。また、3 つの役割があり、Spark アプリケーションに関する情報管理、ユーザーのプログラムや入力への応答、およびエグゼキュータ（瞬間的に定義）全体におけるタスクの分析、分散、スケジューリングを行います。ドライバプロセスは必要不可欠です。Sparkアプリケーションの中心であり、アプリケーションの{...}

Spark Elasticsearch

Spark Elasticsearch とは Spark Elasticsearch とは、ドキュメント指向および半構造化データを格納、取得、管理する NoSQL 分散データベースです。GitHub オープンソースである Elasticsearch は、Apache Lucene をベースに構築され、Apache ライセンスの条件下でリリースされた RESTful な検索エンジンでもあります。 Elasticsearch は Java ベースであるため、さまざまな形式のドキュメントファイルを検索{...}

Spark SQL

多くのデータサイエンティスト、アナリスト、一般的な BI ユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL とは、構造化データ処理のためのSparkモジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、分散型 SQL クエリエンジンとしても機能します。これにより、既存のデプロイやデータで修正不要な Hadoop Hive クエリを最大 100 倍の速さで実行できるようになりました。また、他の Spark エコシステムとの統合も可能で{...}

Sparklyr

Sparklyrとは Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spark 両{...}

SparkR

SparkR とは、R 言語を Spark 上で動作させるためのツールです。Spark の他の言語バインディングと同じ原理に基づいています。SparkR を使用するには、環境にインポートしてコードを実行するだけです。Python ではなくR 言語の構文に従っていることを除けば、Python API と非常に類似しています。ほとんどの場合、Python で利用可能なものは、SparkR でも利用できます。 {...}

Sparkストリーミング

Apache Spark ストリーミングは、Apache Spark の前世代ストリーミングエンジンです。Spark ストリーミングの今後の更新はなく、レガシープロジェクトとなります。Apache Spark には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。ストリーミングアプリケーションとパイプラインには、Spark 構造化ストリーミングをご使用ください。構造化ストリーミングの詳細はこちらでご覧いただけます。 Sparkストリーミングとは Apache{...}

Sparkチューニング

Sparkパフォーマンスチューニングとは Sparkパフォーマンスチューニングとは、システムが使用するメモリやコア、インスタンスなどを記録するための設定を調整する処理のことです。この処理により、Sparkは優れた性能を発揮し、リソースのボトルネックの防止も可能になります。データのシリアライズとはメモリ使用量を削減するために、Spark RDDをシリアル化して格納する必要があります。また、データのシリアライズは、ネットワークのパフォーマンスにも影響します。Sparkの性能を向上させるには、次の{...}

Sparse Tensor

Python には、多次元配列を操作する NumPy と呼ばれるビルトインライブラリがあります。PyTensor ライブラリを開発するには、NumPy を使用することが第一の要件となります。Sptensor は、Sparse Tensor を表すクラスです。Sparse Tensor とは、エントリの大部分がゼロであるデータセットです。例としては、大規模な対角行列（多くがゼロ要素）が挙げられます。Tensor オブジェクトの値全体を保存するのではなく、非ゼロ値とそれに対応する座標を保存します。S{...}

TensorFlow

Google は、2015年11月に機械学習のためのフレームワークをオープンソースで公開し、TensorFlow と名付けました。CPU、GPU、GPU クラスタでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。TensorFlow の最大の利点はそのコミュニティにあり、多くの開発者、データサイエンティスト、データエンジニアがオープンソースの開発に貢献しています。TensorFlow の現在のバージョンは、リリースノートとともに GitHub&nbs{...}

Tensorflow Estimator API

Tensorflow Estimator API とは Estimator は、完全なモデルを表しますが、ユーザーの多くに複雑な印象を与える傾向があります。Estimator API とは、モデルを学習して、その精度を評価し、推論を作成するためのメソッドを提供する高レベル API です。下の図のように、TensorFlow は複数の API 層からなるプログラミングスタックを提供します。Estimator には、事前構築された Estimator と、独自でカスタマイズする Estim{...}

Tungsten

Tungsten プロジェクトとは Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。 Tungsten プロジェクトに含まれるイニシアティブメモリ管理とバイナリ処理：アプリケーションのセマンティックスを活用してメモリを明示的に管理し、JVM オブジェクトモデルとガベージコレクションのオーバーヘッドを{...}

アノマリー検知

アノマリー検知とは、定常状態とは統計的に異なる不審なイベントや観測値を特定する手法です。異常検知とも呼ばれます。このような「異常」な挙動は、多くの場合に、クレジットカードの不正使用、マシンの故障、サイバー攻撃といった問題の存在を意味します。例えば、膨大な数のトランザクションの監視が必要な金融業界では、アノマリー検知がエラーの発生場所の特定や原因の分析を支援し、問題への迅速な対応を可能にします。また、検知した異常値をもとにしたアラートの発行にも活用され、担当者の行動を促します。そこから得られる情報{...}

オルタナティブデータ

オルタナティブ（代替）データとはオルタナティブデータ（代替データとも呼ばれる）とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし、正確には何をオルタナティブデータとみなすかは業界によって異なり、自社や競合他社で既に使用されている従来のデータソースに依存されています。標準的なオルタナティブデータタイプオルタナテ{...}

オーケストレーション (Orchestration)

オーケストレーションとはオーケストレーションとは、複数のコンピュータシステム、アプリケーション、サービスを調整および管理し、大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは、自動化された複数タスクで構成され、複数のシステムをまたぐこともあります。オーケストレーションは、頻繁に繰り返されるプロセスの実行を効率化および最適化し、データチームが複雑なタスクやワークフローを容易に管理できるようにします。プロセスはいつでも繰り返しが可能で、タスクは自{...}

オープンバンキング

オープンバンキングとはオープンバンキングとは、消費者の事前同意のもとに、消費者の金融データへのアクセスをセキュアに共有する方法です²。規制や技術革新、競合の勢いに後押しされ、オープンバンキングは、銀行以外の第三者や消費者などが顧客データをさらに活用できるよう、顧客データの民主化を呼びかけています。この技術革新は、銀行業界を他業界との高い連携性を持つプラットフォーム提供者へと進化させると同時に、銀行にエコシステムを拡大し、新規市場への参入機会を与えています。オープンバンキングを利用して、現在、多{...}

サプライチェーンマネジメント（SCM）

サプライチェーンマネジメント（SCM）とはサプライチェーンマネジメント（SCM）とは、製品やサービスを効率的かつ効果的に生産し、顧客に提供することを目的として、サプライチェーンのオペレーションを計画、実施、管理するプロセスです。製品やサービスの調達、生産、納品に関わるあらゆる活動の調整と最適化、また情報の流れや財務取引の管理も含まれます。サプライチェーンマネジメントの主な要素には、サプライヤー管理、インベントリ管理、生産計画とスケジューリング、物流・輸送管理、顧客サービスなどがあります。効果{...}

サーバーレスコンピューティング (Serverless Computing)

サーバーレスコンピューティングは、コンピュート・インフラの最新の進化です。かつて企業は、ウェブアプリケーションを実行するために物理サーバーを必要としていました。その後、クラウド・コンピューティングの台頭により、仮想サーバーを作成することが可能になりました。現在、サーバーレスコンピューティング・モデルでは、クラウドサービス・プロバイダーがインフラ管理の責任を負い、企業の開発者はアプリケーションの作成とデプロイに専念することができます。サーバーレスコンピューティングにより、企業は開発を加速し、運{...}

サービスとしての Apache Spark

サービスとしての Apache Spark（Apache Spark as Spark-as-a-Service）とは Apache Spark は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009 年に研究が開始されて以来、目覚ましい発展を遂げてきました。Apache Spark は現在、50 を超える組織から 200 名以上が参加する、ビッグデータの最大オー{...}

スタースキーマ (Star Schema)

スタースキーマとはスタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート (Data Mart)、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。 1990 年代にラルフ・キンボール (Ralph Kimball)によって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの{...}

ストリーミング分析

ストリーミング分析の仕組みストリーミング分析（イベントストリーム処理とも呼ばれる）とは、イベントストリームという連続クエリを使用して、現在のデータと移動中のデータの膨大なデータプールを分析することです。このイベントストリームは、金融取引、設備故障、ソーシャルメディアへの投稿、Web サイトのクリック、またはその他の測定可能なアクションなど、一連のアクションの直接的な結果として生じる特定のイベントによって動作します。データは、モノのインターネット（IoT）やトランザクション、クラウドアプリケーシ{...}

スノーフレークスキーマ

スノーフレークスキーマとはスノーフレークスキーマ(Snowflake)は、スタースキーマを拡張した多次元データモデルで、ディメンションテーブルがサブディメンションテーブルに細分化されたものです。スノーフレークスキーマは、データウェアハウスやデータマート、リレーショナルデータベースの多次元分析を使用した BI（ビジネスインテリジェンス）やレポーティングによく使用されています。スノーフレークスキーマでは、エンジニアがそれぞれのディメンションテーブルを論理的なサブディメンションに細分化します。この{...}

セマンティックレイヤー

セマンティックレイヤーの理解セマンティックレイヤーは、複雑なデータモデルとビジネスユーザーの間のギャップを埋める、ビジネスフレンドリーなインターフェースです。抽象化レイヤーとして機能し、技術的なデータ構造をビジネス用語や概念に変換することで、データアナリストやビジネスユーザーが高度な技術知識を必要とせずにデータへアクセスし、分析し、洞察を得ることを可能にします。定義と目的セマンティックレイヤーは、現代のデータスタックにおける中間的な翻訳レイヤーとして機能し、生のデータをビジネスに意味のある{...}

データの移行

企業はかつてないほどデータに依存しています。データを効果的に活用するためには、最適なデータプラットフォームの利用が重要であり、そのためには、データ移行が必要になることもあります。データ移行に関するご質問や、データ移行を成功させる手法について、Databricks がお答えします。データ移行とはデータ移行とは、デジタル情報をあるプラットフォームから別のプラットフォームに移動させるプロセスです。これには、ストレージシステム、コンピューティング環境、データベース、データセンター、または他のアプリ{...}

データアーキテクチャ (Data Architecture)

ビジネス環境は進化し、データとAIは競争優位性の基礎となっています。データはあらゆる企業にとって重要な資産となっており、データマネジメントは組織全体の戦略をサポートするために熟考された設計が必要です。データアーキテクチャは、データマネジメントの日々の現実を決定するフレームワークであり、企業がデータとAI の時代に繁栄できるかどうかに大きな影響を与えます。データアーキテクチャとは？データアーキテクチャは、組織内のデータ管理に使用される概念、標準、ポリシー、モデル、ルールのフレームワークとして{...}

データインテリジェンス

データインテリジェンスは、人工知能（AI）システムを活用してデータを学習、理解、推論するプロセスであり、カスタム AI アプリケーションの作成を可能にし、企業全体でのデータアクセスを民主化します。 {...}

データウェアハウス（DWH）

データウェアハウス（DWH）とは？データウェアハウス（DWH）は、複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。主に、ビジネスインテリジェンス（BI）、レポート作成、データ分析に使用されます。データウェアハウスでは、POS システム、インベントリ管理システム、マーケティングや販売データベースなどの業務システムに蓄積されたデータを、迅速かつ容易に分析可能です。データは、オペレーショナルデータストア（ODS）{...}

データガバナンス

データガバナンスとはデータガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。ビジネスにおけるデータガバナンスのメリットデータの量と複雑さの増大に伴い、コアビジネスの強化につながるデータガバナンスに注目しています。データガバナンスはビジネスに次のようなメリットをもたらします。データの品質：{...}

データストリーミング入門

過去数年間で、リアルタイムデータの需要は急速に増加しています。組織はますます、データストリームを活用したアプリケーションやプラットフォームを構築し、リアルタイムの分析と機械学習を提供してビジネスの成長を促進しています。データを継続的に収集、処理、分析することで、リーダーは即時の洞察を得ることができ、より迅速な意思決定を可能にし、より正確な予測を行うことができます。企業はリアルタイムデータストリーミングを活用して、運用システムのビジネス取引や潜在的な詐欺を追跡したり、ダイナミックな価格モデルを通{...}

データセキュリティ

現在の高度に接続された世界では、サイバーセキュリティの脅威やインサイダーリスクは常に懸念されています。組織は、保有するデータの種類を可視化し、データの不正使用を防止し、データにまつわるリスクを特定して軽減する必要があります。以下のセクションでは、データセキュリティが不可欠な理由、一般的なデータセキュリティリスク、不正アクセス・盗難・破損・ポイズニング・偶発的な紛失から組織を守るためのデータセキュリティのベストプラクティスについて解説します。データセキュリティとはデータセキュリティとは、データ{...}

データセット

データセットとはデータセットとは、分析や処理のために組織化され、一緒に保存されたデータの構造化されたコレクションです。データセット内のデータは通常、何らかの形で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。例えば、データセットには、ビジネスデータ（売上高、顧客の連絡先情報、トランザクションなど）のコレクションが含まれている場合があります。データセットには、数値からテキスト、画像、音声記録まで、さまざまな種類のデータを含められます。データセット内のデータは通常{...}

データパイプライン

データを扱う仕事をしていれば、自覚の有無にかかわらず、データパイプラインに一度は接したことがあるはずです。現代の組織の多くは、さまざまなクラウドベースのプラットフォームやテクノロジーを利用して業務を遂行しており、データパイプラインは、これらのプラットフォームから情報にアクセスするうえでで重要な役割を担っています。データパイプラインのさまざまなタイプ、その使用方法、組織でデータパイプラインを構築するためのベストプラクティスをご紹介します。データパイプラインとはデータパイプラインとは、あるシ{...}

データフロー

データフローとはデータフローは、システムのアーキテクチャ内でデータがどのように移動するか、すなわち、あるプロセスやコンポーネントから別のプロセスやコンポーネントへデータがどのように移動するかを説明します。コンピュータシステム、アプリケーション、ネットワーク内で、データがどのように入力、処理、保存、出力されるかを示します。データフローは、IT システムの効率性、信頼性、セキュリティに直接的な影響を与えるため、システムがその出力を最適化するように適切に構成されていることが極めて重要です。データフ{...}

データプラットフォーム

データプラットフォームとはデータプラットフォームとは、企業が抱える膨大なデータの統合、管理、分析を行うためのデータ基盤のことです。さまざまなデータソースの情報を一元管理することで、より迅速なデータ分析や処理、社内でのスムーズなデータ共有などを可能にします。包括的なデータプラットフォームには、予測分析、データ視覚化、ロケーションインテリジェンス（LI）、自然言語処理（NLP）、コンテンツ分析など、さまざまな機能を搭載した複数のツールが組み込まれています。その主な目的は、あらゆる種類のデータを実用{...}

データマーケットプレイス

データマーケットプレイスまたはデータマーケットとはデータマーケットプレイスまたはデータマーケットは、データの共有とコラボレーションを可能にするオンラインストアです。データプロバイダと消費者をつなぎ、高品質で一貫性のあるデータ資産を安全な環境で共有・取引する機会を提供します。企業はマーケットプレイスを利用して、自社のデータセットを強化したり、データを収益化したり、データ製品やサービスを提供することができます。 {...}

データメッシ (Data Mesh)

データは企業にとって不可欠であり、技術革新と進歩の原材料となります。その重要性は、組織がよりデータ中心、意思決定中心になるにつれて高まっており、それに対応しようとする組織にとって大きな課題となっています。レガシーデータレイク (Data Lake)とデータウェアハウスがサイロ化し、データの可視性が低下し、データ処理が遅く複雑になることで、この問題を引き起こしています。このような障壁やボトルネックはコラボレーションを妨げ、貴重なデータリソースが活用されないままになってしまいます。企業がデータを最{...}

データレイクハウス (Data Lakehouse)

データレイクハウス (Data Lakehouse)とは？データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティ (Scalability)とデータウェアハウス (DWH)のデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで、あらゆるデータにおけるビジネスインテリジェンス（BI）と機械学習（ML）を可能にします。 {...}

データ共有

データ共有とは Data Sharingは、同じデータを1人または多数の消費者が利用できるようにする機能です。増え続けるデータは、あらゆる企業にとって戦略的資産となっています。データの共有は、ビジネスユニット内だけでなく、外部ソースからのデータの消費も含め、新たなビジネスチャンスを可能にするテクノロジーです。データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データ収益化による新たな収益の創出Stream 。 {...}

データ品質の理解

これまで企業は、さまざまな複雑なデータセットに依存して意思決定を行っています。企業が効果的かつ戦略的な意思決定を行うためには、このデータが信頼でき、正確で、適切であることが極めて重要です。このことは、業界がAI機能の活用に適応するにつれて、さらに重要になります。AIとアナリティクスは、正確な予測と意思決定を行うために、クリーンで質の高いデータに依存しています。信頼性の低いデータは、AIアルゴリズムの信頼性を低下させるだけでなく、組織に広範な影響を与える可能性があります。不完全なデータや欠落した{...}

データ変換

データ変換とはデータ変換とは、データソースから抽出された未加工データを利用可能なデータセットに変換するプロセスです。多くの場合、データパイプラインには複数のデータ変換が含まれ、煩雑な情報をクリーンで質の高い、信頼できるデータに変換します。組織はこのデータを活用して運用ニーズを満たし、実用的なインサイトを取得できます。データ変換プロセスは、データエンジニアリングにおける重要なプロセスです。 {...}

データ管理

データ管理とはまずデータ管理の定義について説明します。データ管理とは、組織のデータをライフサイクル全体にわたって整理、処理、保管、保護、分析することです。効率的にデータを取り扱うことで、情報の安全性と信頼性を確保できます。効果的なデータ管理により、業務の効率化や正確なビジネス分析が可能になり、それに基づいて戦略的な意思決定を行うことができます。また、法的要件にも適切に対応できます。すなわち、データ管理は、データガバナンス戦略に従ってデータライフサイクルを技術的に実行するプロセスといえます。{...}

データ自動化

データの量、データソース、データの種類の増大に伴い、組織はデータを変換し、ビジネスインサイトを導き出すためのツールや戦略をますます必要としています。未加工の煩雑なデータをクリーンで高品質なデータに処理することは、これを実現するための重要なステップです。以下のセクションでは、データ自動化とその使用方法について説明し、組織内でデータ自動化プラクティスを構築するためのベストプラクティスを考察します。データ自動化とは？データ自動化は、データ管理の手法としてますます普及しています。データ自動化により、{...}

ニューラルネットワーク

ニューラルネットワークとはニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。ニューラルネットワークは、入力層と出力層で構成されており、その多くには隠れ層があります。この隠れ層は、入力を出力層で使用できるものに変換するユニットで構成されています。ニューラルネットワークアーキテクチャのタイプ人工ニューラルネットワークとしても知られるニューラルネットワークは{...}

ハッシュバケット

コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値をみつけます。使用されるキーの主な特徴は次のとおりです。社会保障番号、電話番号、口座番号などのキーを使用します。キーは一意である必要があります。各キーは、値に関連付け（マッピング）されます。ハッシュバケットは、{...}

バイオインフォマティクス

バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。バイオインフォマティクスは、生物学のデータの保存、取得、整理、分析を行うバイオテクノロジーにITを活用することを指します。膨大なデータ量がゲノム配列決定プロジェクトや他の研究から生成されており、このデータ急増により、実に生物学における課題のほとんどは、膨大な計算の必要性に迫られています。バイオインフォマティクスという用語は、1970年にポーリーン・ホフヴェイ（Paulien Hog{...}

ビジネスインテリジェンスとビジネスアナリティクス：概要

ビジネスインテリジェンス(BI)は、ビジネスデータから実用的な知見を生成するために設計された一連の技術、プロセス、戦略です。 BIシステムは、ビジネスオペレーションの生データを収集・保存し、それを分析することで、より良い意思決定をサポートする有意義な情報に変換します。ビジネス・アナリティクス（BA）は、多くの専門家によってBIのスーパーセットと考えられています。統計や数学を用いてデータを解釈し、意味のある知見を抽出することと定義されることが多いです。 BIとBAは、組織が正確でタイムリーなデー{...}

ビッグデータ分析

データ分析とビッグデータ分析の違い Hadoop が開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析はスモールデータに制限されていました。しかし、このような比較的簡易な形式でも、特に新しいデータソースの統合においては、分析が困難なケースが生じていました。従来のデータ分析は構造化データのテーブルで構成されたリレーショナルデータベース（SQL データベースなど）の使用に依存しています。データを分析用のデータベースに取り込む前に、未加工データの各バ{...}

ファインチューニング (Fine-tuning)

ファインチューニングの理解特定の目的のために人工知能(AI)や機械学習 (ML)モデルをトレーニングする場合、データサイエンティストとエンジニアは、ゼロから新しいモデルをトレーニングするよりも、事前にトレーニングされた既存の大規模言語モデル(LLM)を修正する方が簡単でコストがかからないことに気づきました。基礎となる大規模言語モデルは、膨大なデータセットで訓練された強力で汎用的なAIであり、幅広いトピックやタスクにわたって人間のようなテキストを理解し、生成します。既存のモデルのディープラ{...}

プロンプトエンジニアリング (Prompt Engineering)

プロンプトエンジニアリングは、人工知能(AI)開発の最前線にある新しい分野で、生成AI (GenAI)モデルの効果的な入力を作成する重要なプロセスに焦点を当てています。 AIシステムがますます高度化するにつれ、AIと効果的にコミュニケーションする能力は極めて重要なスキルとなっています。プロンプトエンジニアリングは、人間の意図と機械の理解のギャップを埋め、AIツールが最適なアウトプットを生み出すことを保証します。プロンプトエンジニアリングの核心は、AIモデルに与える自然言語命令の設計と改良です。{...}

ベイジアンニューラルネットワーク

ベイジアンニューラルネットワークとはベイジアンニューラルネットワーク（BNN）とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ（ニューラルネットワークの重みとバイアス）を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。プログラミング言語において、特定の値を取得できる変数は、その特定の変数にアクセスする度に同じ結果になります。まず、一連の入力特徴量の加重和に{...}

ベクトルデータベース(Vector Database)

ベクトルデータベースとは何ですか？ベクトルデータベースは、データを高次元のベクトルとして保存・管理するために設計された特殊なデータベースです。ベクトルとは、データに含まれる特徴や属性を数学的に表現したものです。行と列で構成された構造化データの取り扱いに適している従来のデータベースとは対照的に、ベクトルデータベース構造は、類似性に応じてグループ化された固定次元数のベクトル表現として情報を配置します。ベクトルデータベース内の各ベクトルは特定の次元数で構成され、その次元数は数十次元から数千次元まで{...}

ホスト型のSpark

ホスト型の Spark とは Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の Grap{...}

マテリアライズドビュー

データブリックスの Delta パイプラインとマテリアライズドビュー概要 Delta パイプラインは、データパイプラインのライフサイクルを管理する API と UI を提供します。オープンソースのフレームワークがデータエンジニアリングチームによる ETL の開発をシンプルにし、データの信頼性を向上させ、運用の拡張を支援します。データ変換のコーディングやジョブのスケジューリングを行う代わりに、宣言型パイプラインを構築することで、データの最終状態を容易に定義できます。さまざまなタスク間の依存関係を{...}

マネージドSpark

マネージドSparkとはマネージド Spark は、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易し、タスクが完了したときにクラスタをオフにすることができます。ワークロード、パフォーマンス要件、または既存のリソースに基づいてクラスタのサイズを設定することも可能です。さらに、ほんの数秒で動的にスケールアップおよびスケールダウンできる、完全{...}

メダリオンアーキテクチャ (Medallion Architecture)

メダリオンアーキテクチャとはメダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー（ブロンズ → シルバー → ゴールドのテーブル）を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。 {...}

モデルリスク管理

モデルリスク管理とは、モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。金融サービスにおけるモデルリスクとは、精度が低いモデルを使用して意思決定を行うことで生じる損失リスクを意味します。多くの場合は金融証券の評価に使用され、消費者信用スコアの付与、クレジットカードの不正取引のリアルタイムな確率予測、マネーロンダ{...}

リアルタイムなリテール（小売業）

小売業におけるリアルタイムデータ小売業におけるリアルタイムデータとは、データへのリアルタイムなアクセスを意味します。バッチ式のアクセス、分析、コンピューティングからリアルタイムアクセスに移行することで、データは常時稼働の状態となり、正確でタイムリーな意思決定とビジネスインテリジェンス（BI）の推進が可能になります。需要予測、パーソナライゼーション、店頭在庫の可用性、到着時間予測、オーダーピッキングとコンソリデーションといったリアルタイムのユースケースは、サプライチェーンのアジリティ向上、サービ{...}

リアルタイム分析

リアルタイム分析とはリアルタイム分析とは、ストリーミングデータを生成時に収集して分析することをいいます。データの生成から分析までのレイテンシを最小限に抑えることができます。リアルタイム分析は、広告やオファーのパーソナライズ、スマートプライシング、予測メンテナンスをはじめ、データの適時性が重要なアプリケーションでよく利用されます。リアルタイム分析は、データストリーミングの基本機能に基づいて構築されています。データストリーミングとはデータ処理には、バッチ処理とストリーミング処理の2種類がありま{...}

リテール向けレイクハウス

リテール向けレイクハウスリテール向けレイクハウスは、Databricks 初の業界特化型レイクハウスです。ソリューションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。リテール向けレイクハウスは、テクノロジー、パートナー、ツール、業界イニシアチブの集大成であり、データと AI における強力なコラボレーションを推進します。リテール向けレイクハウスの主要な構成要素は、次の 4 つです。データと AI の統合プラットフォーム：現代{...}

予測分析

予測分析とは予測分析とは、新しいデータと過去のデータを活用してパターンを見つけ出し、将来の結果や傾向を予測する高度な分析手法です。予測分析の仕組み予測分析では、統計分析技術、分析クエリ、データマイニング、予測モデリング、自動機械学習アルゴリズムなどの多くの技術をデータセットに使用して、特定の事象が発生する可能性を数値化し、what-if シナリオやリスク評価などを含む予測モデルを作成します。予測分析により、組織はデータに含まれるパターンを見つけて利用することで、リスクと機会を検出することが{...}

予測型メンテナンス

予測型メンテナンスとは予測型メンテナンスとは、一言でいうと、予め定められたスケジュールだけでなく、設備の実際の状態や状況に基づき、いつ頃、具体的にどのようなメンテナンスを行うべきかを判断し、設備の稼働時間と生産性を最大化するためのものです。故障を予測や予防し、適切な定期メンテナンスを実施することで、コストのかかる機器のダウンタイムを削減できます。 IoT とセンサーデータが機器からストリーミングされることで、予測型メンテナンスは、製造業者が効率的に機械が停止するタイミングを予測することを可能に{...}

人工ニューラルネットワーク (ANN)

人工ニューラルネットワークとは人工ニューラルネットワーク（ANN）とは、人間の脳内にある神経細胞（ニューロン）の動作を模したコンピューティングシステムです。人工ニューラルネットワークの仕組み人工ニューラルネットワーク（ANN）は、階層で構成される重み付き有向グラフとして表現され、構造が明確になります。これらの階層は人間の脳の生体ニューロンを模した多数のノードを特徴とし、相互に接続され、活性化関数を含みます。第1層は、外部から未処理の入力信号を受信します。人間の視覚処理における視神経に類似し{...}

大規模言語モデル（LLM）

大規模言語モデル（LLM）とは大規模言語モデル（LLM）は、自然言語処理（NLP）モデルの新しいクラスです。自由形式の質問への回答、チャット、コンテンツの要約、任意に近い命令の実行、翻訳、コンテンツやコードの生成などのさまざまなタスクにおいて、従来のモデルを大きく上回る性能と能力があります。LLM は、高度な機械学習アルゴリズムを使用して膨大なデータセットからトレーニングされ、人間の言語のパターンや構造を学習します。 {...}

検索拡張生成（RAG）

検索拡張生成（RAG）とは検索拡張生成（RAG）は、カスタムデータを活用することで大規模言語モデル（LLM）アプリケーションの有効性を向上させるアーキテクチャアプローチです。質問やタスクに関連するデータや文書を検索し、LLM のコンテキストとして提供することRAG は、最新の情報を維持したり、ドメイン固有の知識にアクセスする必要があるチャットボットや Q&A システムのサポートに活用されています。 {...}

構造化ストリーミング

構造化ストリーミングとは、ストリーミングデータを処理するための高レベル API です。Spark 2.2 で実運用が可能になりました。構造化ストリーミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、インクリメンタル処理が可能になります。構造化ストリーミングの最大のメリットは、事実上コードを変更することなく、ストリーミングシステムから迅速に価値を引き出すことができることです。また、バッチジョブを{...}

機械学習パイプライン

通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。各ステージに利用できるライブラリは多数ありますが、特に大規模なデータセットを使用する場合、それぞれのライブラリを全体につなげる作業は容易ではありません。また、ほとんどの機械学習ライブラリは、分散計算用には設計されていないか、パイプライン{...}

機械学習ライブラリ（MLlib）

Apache Spark の機械学習ライブラリ（MLlib）とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ（インフラストラクチャ、構成など）の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティ{...}

深層学習

深層学習とは深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。深層学習は、データ表現の学習に基づく機械学習手法の1つで、従来のタスク固有のアルゴリズムとは異なります。深層学習の仕組み深層学習では、コンピュータモデルが、画像、言語、または音声から直接分類タスクを実行できるように学習します。タスクを繰り返し実行して、結果改善のための微調整を行います。深層学習{...}

特徴量エンジニアリング

機械学習のための特徴量エンジニアリング特徴量エンジニアリングは、未加工データを機械学習モデルの開発に利用可能な特徴量に変換するプロセスで、データ前処理とも呼ばれています。ここでは、特徴量エンジニアリングの主要な概念と、MLのライフサイクル管理における役割について説明します。機械学習における特徴量とは、モデルのトレーニングに使用される入力データのことです。これらは、モデルが学習するエンティティの属性です。未加工データは通常、ML モデルの入力として使用する前に処理する必要があります。優れた特徴{...}

生成AI

生成 AI は人間の創造、仕事、コミュニケーションの方法を変えようとしています。Databricks が生成 AI の仕組みと今後の方向性について解説します。 {...}

統合 AI フレームワーク

総合人工知能（ UAI ）は、開発者カンファレンス「F8 」で Facebook によって発表されました。UAI は Facebook 主導で開発された、PyTorch と Caffe の 2 つの深層学習フレームワークを統合したもので、PyTorch は大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。スコープが狭い Facebook の統合 AI とは異なり、統合{...}

統合データウェアハウス

統合データウェアハウスとは統合データウェアハウス（エンタープライズデータウェアハウスとも呼ばれる）は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。今日、多くの企業においてデータはサイロ化されています。データの品質、統合、ガバナンスの保守や、メタやマスターデータ、B2B データ交換、データベース、アーキテクチャの管理など、同じ組織内の異なるそれぞれの部門で、多様なデータをさまざまなツールで管理しています。大企業におけるデータウェアハウス（ D{...}

統合データ分析

統合データ分析とは、データ処理を AI 技術を統合する新しいソリューションです。企業組織にとっての AI の実現可能性を格段に高め、AI への取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、モデル構築のラベル付きデータセットの準備が容易になるため、組織は既存のデータに AI を実行したり、大規模なデータセットに対して AI を繰り返し実行したりできるようになります。また、統合データ分析では、幅広い AI アルゴ{...}

統合データ分析プラットフォーム

データブリックスの統合データ分析プラットフォームは、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを促進します。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。また、このプラットフォームでは、あらゆる AI アプリケーションに対して、ML モデルの継続的トレーニングとデプロイが可能です。統合データ分析プラットフォームを使用するメリットのトップ 3 は次のとおりです{...}

自動化バイアス

自動化バイアスとは自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。認知的努力を最小限に抑え、「自動化バイアス」に依存しがちなのは、人間の傾向性ですが、大規模なデータからの学習をベースとするAIや自動化機能にも同様の傾向性が当てはまる懸念があります。このタイプのコンピューテーション{...}

複合 AI システム

複合 AI システムとはバークレー人工知能研究所（BAIR）のブログの定義によると、複合 AI システムとは、複数の相互に連携するコンポーネントを組み合わせてAIタスクに取り組むシステムです。これらのコンポーネントには、複数のモデルへの呼び出し、データ取得システム、外部ツールなどが含まれる場合があります。例えば、検索拡張世代（RAG）アプリケーションは、モデルとデータ検索システムを組み合わせた複合 AI システムの一例です。複合 AI システムは、さまざまな人工知能（AI）モデルやツール、パイ{...}

複合イベント処理

複合イベント処理（CEP）とは複合イベント処理（CEP）とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。複合イベント処理は、多くの異なる情報を集約するのに有用で、イベント間の因果関係をリアルタイムで特定、分析する整理ツールです。CEPでは連続的に収集されるイベントをパターンと照合し、イベント内容についての洞察の提供、効果的なアクションの積極的な実行を可能にします。{...}

設備総合効率（ OEE )

設備総合効率（ OEE ）とは設備総合効率（ OEE ）は、製造におけるオペレーションが、予定されている期間中に、その潜在的な能力（設備、時間、材料）に対して、どれだけ利用されているかを示す指標です。製造時間のうち、実際の稼働時間の割合を特定することができます。OEE は、離散的または連続的なプロセスの総合的な性能を示すダッシュボードです。OEE は 100% で最大となり、良い部品だけが（ 100% 品質）、最高速度で（ 100%&nb{...}

連続実行アプリケーション

連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。連続実行アプリケーションが処理できるユースケースは次のとおりです。リアルタイムで提供されるデータの更新：開発者は、更新と提供（SparkのJDBCサーバ経由など）の{...}

需要予測

需要予測とは需要予測とは、消費者の需要（将来収益）を予測するプロセスです。具体的には、定量的および定性的データを使用して、消費者が購入する商品の品揃えを予測します。小売業者は、消費者が求めるタイミングで商品を提供できないことで、1 兆円規模の収益機会を逃しています。低精度の需要予測は、需要に即していない商品の陳列につながり、さらには、店頭の在庫切れなどの大きな問題を引き起こします。リテール向けレイクハウスによる需要予測リテール向けレイクハウスは、データへのリアルタイムなアクセスを可能にし{...}

高密度テンソル

高密度テンソルとは、全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は、多様な多次元データ分析アプリケーションで使用されます。さまざまなオープンソースのサードパーティツールボックスによって拡張された MATLAB suite など、テンソル計算を実行できるソフトウェア製品は数多くあります。MATLAB 単体でも、さまざまな要素ごとおよびバイナリの密なテンソル演算をサポートしています。各ニューロンが前の層の全てニューロンからの入力を受け取り、高密度で接{...}