メインコンテンツへジャンプ

Glossary

ゲノミクスとは、生物のゲノムのシーケンシングと分析に関する遺伝学の一分野です。その主な役割は、DNA のシーケンス全体、または DNAを構成する原子の組成や、原子間の化学結合を明らかにすることです。ゲノミクスの分野は、全体構造としてのゲノムに重点を置いており、生物の完全な遺伝物質の研究として定義することができます。DNA は 1869 年に初めて単離されましたが、ゲノミクスは、科学者が単純な生物の DNA シーケンスを決定した 1970 年代に始まったばかりです。ゲノミクス分野における大きな転機{...}
デジタルツインとはIBM によると、デジタルツインの従来の定義は、「物理オブジェクトを正確に反映するように設計された仮想モデル」です。デジタルツインは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー(OT:運用技術データ)やエンタープライズデータ(IT:情報技術)を用いてシステムやプロセスの状態データを収集し、仮想モデルを形成します。このモデルは、シミュレーションの実行、性能の問題の調査、知見の抽出に使用できます。デジタルツインの概念は、特に新しいものではありません。実際{...}
データマートとは データマートは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。一般的には、大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ、分析や BI(ビジネスインテリジェンス)、レポーティングに使用されます。データマートは、中央データウェアハウスと{...}
金融サービスのパーソナライズとは金融商品やサービスのコモディティ化が進み、メディアや小売業界がパーソナライズされた体験を好むようになったことで、消費者の期待は高まっています。消費者から求められるものが日々変化していく中で、銀行がこれからも必要とされ続けるためには、パーソナライズされた知見やレコメンド、財務目標の設定、レポート機能といった従来の銀行業務を超えた付加価値のある銀行体験を提供する必要があり、これらは全て地理空間や自然言語処理(NLP)などの高度な分析機能によって実現されます。金融サービ{...}
トランザクションとは データベースやデータストレージシステムの文脈では、トランザクションは、完全に完了するか全く完了しないかのいずれかで、ストレージシステムを一貫した状態に保つ単一の作業単位として扱われる任意の操作です。トランザクションの典型的な例は、銀行口座からお金を引き出すときに起こることです。お金が銀行口座から出ているか、出ていないかのどちらかです - 中間状態は存在しません。 {...}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの 1 つに、勾配降下法があります。勾配降下法は機械学習モデルのトレーニングに使用されます。勾配降下法の種類現在、機械学習や深層学習のアルゴリズムに使用されている勾配降下法は、主に3種類あります。バッチ勾配降下法3 種類の勾配降下法の中で、バッチ勾配降下法は一番容易な手法です。トレーニングデータセットの各データの誤差を計算しますが、トレーニングデータの計算が全て終了するまでモデルは更新されません。確率的勾配降下法確率的勾配降下法は、{...}
人工知能(AI)エージェントは、AIプラットフォーム(AI Platforms)上でAIの力を活用し、業務を自律化する画期的な方法です。従来のAIシステムはユーザーからの継続的な入力を必要とするのに対し、AIエージェントは環境と相互作用し、関連データを収集し、ユーザーの目標を達成するためにタスクを実行するエージェンシーを持つインテリジェントなソフトウェアシステムです。人間が目標を設定する一方で、AIエージェントはその目標を達成するための最善の方法を決定します。簡単に言うと、従来のAIシステムは、{...}
AIガバナンスとは?AI ガバナンスとは、人工知能システムがそのライフサイクル全体を通じて責任ある方法で開発、導入、運用されることを保証するために組織が用いる、フレームワーク、ポリシー、プロセスの体系です。この用語は、倫理的配慮、規制コンプライアンス、リスク管理、および AI 主導の意思決定と結果に対する説明責任に対応する、あらゆる監督メカニズムを指します。AI システムがビジネスや社会のオペレーションにますます統合されるようになり、堅牢なガバナンスの実践が不可欠になっています。組織は、自社の {...}
AIモデルとは?人工知能(AI)モデルとは、データを用いてパターンを認識し、予測や意思決定を行うコンピュータプログラムです。AIモデルはアルゴリズム(算術、反復、意思決定ロジックに基づく段階的ルール)を使用します。これにより、推論、学習、問題解決など、人間のような機能を人間の介入なしに実行することができます。AI モデルは情報を分析し、複雑で動的な問題を解決し、大量のデータを使用して知見を提供することに長けています。 意思決定を迅速化し、人間よりもはるかに効率的で正確なものにします。AIモデルは{...}
Apache Hive とはApache Hive は、Apache Hadoop 分散ファイルシステム (HDFS) から抽出された大規模なデータセットの読み取り、書き込み、および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで、より規模の大きい Hadoop エコシステムの側面も持ち合わせています。豊富なドキュメントと継続的なアップデートにより、Apache Hiveはデータ処理をより容易にします。Apache Hive の歴史Apac{...}
Apache Kudu とはApache Kudu とは、Apache Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。構造化データ向けのエンジンで、ミリ秒単位の低遅延ランダムアクセスと高速な分析処理をサポートします。広く普及している Hadoop 分散ファイルシステム(HDFS)と NoSQL データベースの HBase 間をつなぐために作成されたビッグデータエンジンです。Hadoop で BI をサポートする Apache Ku{...}
Apache Kylin とはApache Kylin とは、ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache Kylin は Hadoop や Spark でSQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。さらに、ODBC ドライバ、JDBC ドライバ、REST API を介して BI ツールと容易に統合します。2014年に eBay が構築した Apache Kylin は、わず{...}
Apache Spark とはApache Spark は、ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタイム分析とデータ処理のワークロードに加えて、両方のバッチ処理が可能です。Apache Spark は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoop システムでのジョブ処理を高速化する方法を模索していました。Apache Spark は Hadoop MapReduce&n{...}
ビジネスインテリジェンスとは何ですか? ビジネスインテリジェンス(BI)は、ビジネスデータを分析し、実用的な洞察を導き出すための技術、プロセス、戦略の総称です。BIシステムは、原始的なデータを意味のある情報に変換し、より戦術的かつ戦略的な意思決定を支援します。BIツールを使用すると、ユーザーは幅広いデータにアクセスし、それを分析してビジネスをよりよく理解することができます。 ビジネスインテリジェンスの重要性と利点 BIは、正確かつ最新のデータに基づいて情報を提供し、組織がより戦略的な意思決定を行{...}
Catalyst オプティマイザとは、Spark SQL で主要な役割を果たす最適化機能です。Scala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを実現します。Catalyst は Scala の関数型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。Spark SQLへの新しい最適化技術と機能の追加を容易にする外部の開発者でもオプティマイザの拡張を実行できるようにする(データソー{...}
深層学習において、畳み込みニューラルネットワーク(CNN または ConvNet)はディープニューラルネットワークの1つの手法です。画像内のパターン認識に通常使用されますが、空間データ分析、コンピュータビジョン、自然言語処理、信号処理などさまざまな用途に対する導入事例もあります。畳み込みネットワークのアーキテクチャは人間の脳内のニューロン結合パターンに類似し、視覚野の組織構造に着想を得ました。人工ニューラルネットワーク関連のこのタイプは、ネットワークの最も重要な操作の一つである「畳み込み」から名{...}
What is data integration?Data integration is the process of combining data from multiple systems into a unified, reliable view. It brings together information from databases, applications, event streams, files, APIs and third-party platforms so organ{...}
Introduction: Understanding Database Schemas in Modern Data ManagementA database schema acts as a blueprint for how a database is organized and structured. It defines how database tables are laid out, what fields they contain and how those tables rel{...}
Databricks Runtime(ランタイム)は、Databricks が管理するクラスタ上で実行される実行環境を構成するソフトウェア群です。Spark はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricks Runtimeが他の実行環境より優れている点は次のとおりです。優れたパフォーマンス:Databricks I/Oモジュール(DBIO)は、垂直統合スタックを活用してクラウドでの{...}
DataFrame とはDataFrame の概念は、多くの言語やフレームワークで共通しています。DataFrame は、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。DataFrame にはスキーマと呼ばれる青写真が含まれており、各列の名前とデータタイプが定義されています。Spark DataFrame には、文字列型や整数型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを含むことが可能で{...}
DNA シーケンスとは DNA シーケンスとは、DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。DNA シーケンシングは、塩基(アデニン、チミン、シトシン、グアニン)の配列順を決定する技術であり、DNA 分子内の情報を読み取ります。DNA シーケンシングの最初の手法は、1970年代半ばにフレッド・サンガー(Fred Sanger)、ウォルター・ギルバート(Walter Gilbert)、アラン・マクサム(Allan Maxam)によって開発されました。配列決定された最{...}
DLTDLTは、データパイプラインの構築と管理を容易にし、信頼性を向上させて Delta Lake に高品質データをもたらします。 Databricks ETL の詳細 ETL とはETL とは Extract(抽出)、Transform(変換)、Load(ロード)の頭文字をとった略語です。ETLは、さまざまなソースからデータを抽出し、扱いやすい形に変換して、DWHなどのデータシステムへ書き出すプロセスです。これにより、ダウンストリームでビジネス上の問題解決にデータを活用でき{...}
Hadoop とはHadoopとは何か、概要を説明します。Hadoop は、High Availability Distributed Object Oriented Platform の略です。そして、これこそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。Apache Hadoop とは、オープンソースの Java ベースのソフトウェアプラットフォームで、ビッグデータアプリケーションのデータ処理とストレージを管理します。プ{...}
Hadoop エコシステムとはApache Hadoop エコシステムとは、Apache Hadoop ソフトウェアライブラリのさまざまなコンポーネントを指します。オープンソースプロジェクトだけでなく、補足ツールの全てが含まれます。Hadoop エコシステムの最もよく知られているツールには、HDFS、Hive、Pig、YARN、MapReduce、Spark、HBase Oozie、Sqoop、Zookeeper、などがあります。開発者が頻繁に使用する主要な Hadoop エコシステム{...}
Hadoop クラスタとは Apache Hadoop とは、オープンソースの Java ベースのソフトウェアフレームワークで、並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し、Hadoop クラスタ全体に分散させることができます。Hadoop クラスタとは、ビッグデータセットに対してこのような並列計算を実行するためにネットワーク化された、ノードと呼ばれるコンピュ{...}
HDFS HDFS ( Hadoop 分散ファイルシステム)は、 Hadoop アプリケーションで使用される主要なストレージシステムです。このオープンソースのフレームワークは、ノード間のデータ転送を高速に行うことで動作します。ビッグデータを取り扱い、保存する必要のある企業でよく利用されています。HDFS は、ビッグデータを管理し、ビッグデータ解析をサポートする手段として、多くの Hadoop システムにおいて重要なコンポーネントとなっています。 HDFS を利用している企業は世界中にたくさんあり{...}
Hive日付関数とはHiveでは、データの処理や照会を行う際に役立つ多くの組み込み関数を提供しています。これらの関数が提供する機能には、文字列操作、日付操作、型変換、条件演算子、数学関数などがあります。HIVE の組み込み関数の種類日付関数日付に日数を加算したり、他の類似の演算を追加するなど、日付データ型に対する操作を実行するために主に使用されます。数学関数主に数学的計算を実行するために使用されます。条件関数条件をテストするために使用され、テスト条件が真か偽かに基づいて値を返します。文字列関数文{...}
Jupyter Notebook とはJupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、マルチメディアを含むドキュメントを作成・共有でき、主にデータサイエンス分野で利用されています。Jupyter Notebook の用途Jupyter Notebook は、探索的データ解析(EDA)、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行われるあらゆる処理に使用されて{...}
Keras モデルとは?Keras とは、Theano と Tensorflow 上に構築された深層学習のためのハイレベルのライブラリです。Keras は、Python で記述され、深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Keras は、ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワーク API の 1 つです。現在では、ニューラルネットワークのレイヤーの作成や複雑なアーキテクチャの設定が、Keras {...}
ラムダアーキテクチャとはラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、あらゆる関数の計算課題を解決するために活用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。{...}
LLMOps とは 大規模言語モデル運用(LLMOps)には、運用環境における大規模言語モデルの運用管理に使用されるプラクティス、テクニック、ツールが含まれます。 OpenAI の GPT、Google の Bard、Databricks の Dolly などのリリースに象徴されるように、LLM の最新の進歩は、LLM を構築し展開する企業の著しい成長を促していいます。そのため、これらのモデルの運用方法に関するベストプラクティスを構築する必要性が生じています。LLMOps は、大規模な言語モデル{...}
What is a machine learning Model? A machine learning model is a program that can find patterns or make decisions from a previously unseen dataset. For example, in natural language processing, machine learning models can parse and correctly recognize {...}
基本的な違いと、それぞれがAIのどこに当てはまるかを理解します。AI、機械学習、DL の階層構造を理解する人工知能(AI)の広大な世界では、machine learningとディープラーニングの概念が混同されがちです。AI とは、人間のような意思決定を必要とするタスクを実行するインテリジェントなシステムを構築する、広範な分野のことです。機械学習(ML)とは AI の一種で、システムがヒストリカルデータを取り込むことでパターンを学習し、あらゆるルールを明示的にプログラムされなくても意思決定を行うも{...}
MapReduce とは MapReduce は、Apache Hadoop エコシステムの一部であり、Java ベースの分散実行フレームワークです。開発者が実装する Map 処理と Reduce 処理の 2 つの処理ステップを公開することで、分散プログラミングの複雑さを解消します。Map 処理では、データは並列処理するタスク間で分割されます。データの各チャンクには、変換ロジックを適用できます。Map 処理が完了すると Reduce 処理が行われ、Map 処理で分割されたデータの集約を実行します{...}
MLOps とは MLOps は、エムエルオプスと読み、Machine Learning Operations の略語で、機械学習(Machine Learning)と運用(Operations)を組み合わせた言葉です。言葉のとおり、機械学習の開発チーム、運用チーム、データサインティストなどが連携し、機械学習モデルを実ビジネスに効果的に展開・運用するための手法を指します。開発チームと運用チームが連携し、DevOps の原則を拡張して、機械学習のモデルの運用に適用したのが MLOps です。 ML{...}
OLAPは、データを多次元にわたって迅速かつインタラクティブに分析する方法です。オンライン分析処理は情報を構造化するため、ユーザーは各ステップで新しいクエリーを作成することなく、トレンドを探索したり、パフォーマンスに関する疑問を調査したりできます。多次元データ分析のために情報を構造化することで、OLAPは、期間、製品ライン、顧客グループ、地域にわたってメトリクスがどのように振る舞うかをチームが理解するのに役立ちます。OLAP は、分析データの探索と利用の方法を改善することで、多くのビジネス イン{...}
データサイエンスに関していうと、 pandas DataFrame を使いこなすことで、データ分析の効率を高め、意思決定を支援する基盤になり得ます。ただし、そのためには適切なデータ構造が必要です。これらを上手く活用することで、データの操作や分析を最大限効率的にできるようになります。この目的のために使える最も便利なデータ構造(data structure)の1つが pandas DataFrame です。pandas とは、プログラミング言語 Python でデータ分析を行うためのオープンソースの{...}
Parquet とは Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。 グローバルデータおよ{...}
はじめに: DataFrame ライブラリの選択肢を理解するデータフレームは、スプレッドシートに似た2次元のデータ構造(通常はテーブル)です。観測値の行と変数の列で構成される表形式データを保存・操作したり、特定のデータセットから有用な情報を抽出したりできます。データフレームライブラリは、コードでデータを扱うためのスプレッドシートのような構造を提供するソフトウェアツールキットです。DataFrameライブラリはデータ分析プラットフォームに不可欠な要素です。データの読み込み、操作、アナリティクス、推{...}
PostgreSQL の概要PostgreSQL データベースは、構造化データを保存、整理、取得するオープンソースのリレーショナル データベース管理システムです。このリレーショナル データベースは、データテーブル間のリレーションシップを強制し、システムにデータが入力される際にデータを検証し、複数のユーザーが同時に変更を加えてもデータの正確性を維持します。組織は、ライセンス費用なしで信頼性が高く、標準に準拠したリレーショナル データベースを必要とするときに PostgreSQL を選択します。この{...}
PyCharm とは、コンピュータプログラミングで使用される統合開発環境(IDE)です。プログラミング言語 Python 用に作成されています。DatabricksでPyCharmを使用する場合、既定では仮想環境(venv)を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。FAQ1. PyCharmは何のためのツールですか?Pythonのコード作成・実行・デバッグなどをまとめて行えるIDEです。2. DatabricksでPyCharmを使うと何が便利ですか?ローカルの開発体{...}
PySpark とはApache Spark は、プログラミング言語 Scala で記述されています。PySpark とは、Spark を実行するための Python API です。Apache Spark とPython のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、これは Py4J ライ{...}
耐障害性分散データセット(RDD)とは、Spark のリリース以降、Spark の主要なユーザー向け API として利用されてきました。RDD は、クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり、変換その他の操作のための基礎的な API と並行して使用することが可能です。 RDD の使用が適した 5 つのケース データセットに対し、低レベルの変換やアクション、管理を実行する場合 所有データがメディアストリームやテキストストリームなどの非構造化データである場合 ドメイン固有言{...}
Sparkには、DataFrame、Dataset、RDDの3つのAPIがあります。レジリエントな分散データセット(RDD)とはレジリエントな分散データセット(RDD)は、分散コンピューティングを用いたレコードコレクションです。フォールトトレラントで不変な性質を有しています。RDDは、低レベルAPIとの並列操作が可能で、遅延機能によりSparkの操作を迅速化します。また、RDDは2つの操作をサポートしています。トランスフォーメーション:別の RDD を返す遅延操作(map()、flatmap(){...}
Spark アプリケーションとは、ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションです。ドライバプロセスは、main() 関数を実行し、クラスタのノード上で動作します。また、3 つの役割があり、Spark アプリケーションに関する情報管理、ユーザーのプログラムや入力への応答、およびエグゼキュータ(瞬間的に定義)全体におけるタスクの分析、分散、スケジューリングを行います。ドライバプロセスは必要不可欠です。Sparkアプリケーションの中心であり、アプリケーションのライフタイ{...}
Spark Elasticsearch とは Spark Elasticsearch とは、ドキュメント指向および半構造化データを格納、取得、管理する NoSQL 分散データベースです。GitHub オープンソースである Elasticsearch は、Apache Lucene をベースに構築され、Apache ライセンスの条件下でリリースされた RESTful な検索エンジンでもあります。 Elasticsearch は Java ベースであるため、さまざまな形式のドキュメントファイルを検索{...}
多くのデータサイエンティスト、アナリスト、一般的な BI ユーザーは、データの解析に対話型の SQL クエリに活用しています。Spark SQL とは、構造化データ処理のためのSparkモジュールです。DataFrames と呼ばれるプログラミングの抽象化が可能で、分散型 SQL クエリエンジンとしても機能します。これにより、既存のデプロイやデータで修正不要な Hadoop Hive クエリを最大 100 倍の速さで実行できるようになりました。また、他の Spark エコシステムとの統合も可能で{...}
Sparklyrとは Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spark 両{...}
SparkR は、R 言語を Apache Spark 上で動作させるためのツールで、Spark の他言語バインディングと同じ原理に基づいています。SparkR を使用するには、環境にインポートしてコードを実行するだけです。SparkR は R 言語の構文を使用する点を除けば、PySpark(Python API)と非常に類似した操作感を持っています。多くの場合、Python で利用可能な Spark の機能は SparkR からも利用できます。FAQ1. SparkRとは何ですか?SparkR{...}
Apache Spark ストリーミングは、Apache Spark の前世代ストリーミングエンジンです。Sparkストリーミングは現在メンテナンス対象外となっており、レガシー技術として位置付けられています。Apache Spark には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。ストリーミングアプリケーションとパイプラインには、SQL 自動生成と最適化を標準で活用できるSpark 構造化ストリーミングの利用が推奨されます。構造化ストリーミングの詳細は{...}
SparkパフォーマンスチューニングとはSparkパフォーマンスチューニングとは、メモリやCPUコア、インスタンス数などの設定を調整し、処理性能を最適化することです。この処理により、Sparkは優れた性能を発揮し、リソースのボトルネックの防止も可能になります。データのシリアライズとはメモリ使用量を削減するために、Spark RDDをシリアル化して格納する必要があります。また、データのシリアライズは、ネットワークのパフォーマンスにも影響します。Sparkの性能を向上させるには、次のような処理が挙げ{...}
Python には、多次元配列を操作する NumPy という代表的な外部ライブラリがあります。PyTensor は、内部実装において NumPy を基盤ライブラリとして利用しています。Sptensor は、Sparse Tensor を表すクラスです。Sparse Tensorとは、要素の大部分がゼロである多次元データ構造です。例としては、大規模な対角行列(多くがゼロ要素)が挙げられます。Tensor オブジェクトの値全体を保存するのではなく、非ゼロ値とそれに対応する座標を保存します。Spars{...}
Google は、2015年11月に機械学習のためのフレームワークをオープンソースで公開し、TensorFlow と名付けました。CPU、GPU、GPU クラスタでの深層学習、ニューラルネットワーク、一般的な数値計算をサポートしています。TensorFlow の最大の利点はそのコミュニティにあり、多くの開発者、データサイエンティスト、データエンジニアがオープンソースの開発に貢献しています。TensorFlow の現在のバージョンは、リリースノートとともに GitHub&nbs{...}
Tensorflow Estimator API とは Estimator は、完全なモデルを表しますが、ユーザーの多くに複雑な印象を与える傾向があります。Estimator API とは、モデルを学習して、その精度を評価し、推論を作成するためのメソッドを提供する高レベル API です。下の図のように、TensorFlow は複数の API 層からなるプログラミングスタックを提供します。Estimator には、事前構築された Estimator と、独自でカスタマイズする Estim{...}
Tungsten プロジェクトとは Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。 Tungsten プロジェクトに含まれるイニシアティブ メモリ管理とバイナリ処理:アプリケーションのセマンティックスを活用してメモリを明示的に管理し、JVM オブジェクトモデルとガベージコレクションのオーバーヘッドを{...}
ELTはextract、load、transform(抽出、ロード、変換)の略で、クラウドネイティブの**アナリティクス**プラットフォーム向けに設計された最新の**データ統合**アプローチです。ELTパイプラインでは、データはまずソースシステムから抽出され、中央のデータリポジトリに直接ロードされた後、そのターゲットシステム内で変換されます。この順序はELTの決定的な特徴であり、最新のデータアーキテクチャの基盤となっている主な理由です。「ELT」という頭字語は、プロセスの各段階を表しています。「{...}
アノマリー検知とは、定常状態とは統計的に異なる不審なイベントや観測値を特定する手法です。異常検知とも呼ばれます。このような「異常」な挙動は、多くの場合に、クレジットカードの不正使用、マシンの故障、サイバー攻撃といった問題の存在を意味します。例えば、膨大な数のトランザクションの監視が必要な金融業界では、アノマリー検知がエラーの発生場所の特定や原因の分析を支援し、問題への迅速な対応を可能にします。また、検知した異常値をもとにしたアラートの発行にも活用され、担当者の行動を促します。そこから得られる情報{...}
エンタープライズデータウェアハウス(EDW)とは何ですか?エンタープライズ データ ウェアハウス (EDW) とは、組織のデータを統合・管理するために設計された、一元化された構造化リポジトリです。EDW の中核的なメリットは、異種のシステムからの情報が統合、標準化され、一貫性のあるレポート作成と分析のためにアクセス可能になる、ガバナンスの効いた環境を提供することです。頭字語の EDW は、専門的および技術的な文脈で広く使用されていますが、データ ウェアハウス (DW) やデータ ウェアハウジング{...}
自律型AIシステムとその実世界への応用を理解するエージェント AI 入門エージェント型 AI とは、個々のプロンプトに応答するのではなく、人間の介入を最小限に抑えながら、目標を達成するために自律的に計画、決定、行動できるインテリジェントなプラットフォームを指します。エージェント型 AI は、複雑なタスクをエンドツーエンドで処理し、継続的に動作して専門知識を拡張し、人間の調整を削減できます。単に質問に答えるだけでなく、自発的に行動します。エージェント型AIの独特なアプローチは、従来のAIのパターン{...}
AIエージェントの評価とは?総合ガイドAIエージェント評価とは、自律型AIシステムがタスクを実行し、自身の意思決定を導き、ツールと対話し、複数のステップにわたって推論し、安全で信頼性の高い結果を生成する能力をどの程度効果的に測定するかという学問分野です。組織がAIエージェントをアナリティクス、カスタマーサービス、社内業務、ドメイン固有の自動化へと拡張するにつれて、その正確性、安全性、コスト効率を評価する能力は、AIを責任を持って大規模にデプロイするための基本的な要件となります。Databrick{...}
著者: Kevin Stumpf、共同創業者兼CTO2015年にUberの機械学習プラットフォームであるMichelangeloの展開を開始したところ、興味深い傾向が見えてきました。プラットフォーム上でローンチされた機械学習モデルの80%が、エンドユーザー(Uberの乗客とドライバー)のエクスペリエンスに直接影響を与えるオペレーショナル機械学習のユースケースを支えていたのです。分析的な意思決定を支援する分析機械学習(analytical machine learning)のユースケースは、わずか{...}
オルタナティブ(代替)データとは オルタナティブデータ(代替データとも呼ばれる)とは、従来のソースではなく、他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで、業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし、正確には何をオルタナティブデータとみなすかは業界によって異なり、自社や競合他社で既に使用されている従来のデータソースに依存されています。 標準的なオルタナティブデータタイプ オルタナテ{...}
OLTP (オンライン トランザクション処理) は、大量の短いトランザクションを低レイテンシーで効率的に処理できるデータ処理の一種です。OLTP の中核は、データを迅速に保存および取得するように設計されている点にあります。主に、少量のデータの挿入、更新、削除などのトランザクションを含む、日常の重要な運用ワークロードに重点を置いています。例としては、銀行預金の記録、航空券の予約、オンライン購入の処理などが挙げられます。{...}
オーケストレーションとは オーケストレーションとは、複数のコンピュータシステム、アプリケーション、サービスを調整および管理し、大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは、自動化された複数タスクで構成され、複数のシステムをまたぐこともあります。 オーケストレーションは、頻繁に繰り返されるプロセスの実行を効率化および最適化し、データチームが複雑なタスクやワークフローを容易に管理できるようにします。プロセスはいつでも繰り返しが可能で、タスクは自{...}
オープンバンキングとはオープンバンキングとは、消費者の事前同意のもとで金融データを安全に共有する仕組みを指します²。規制や技術革新、競合の勢いに後押しされ、オープンバンキングは、銀行以外の第三者や消費者などが顧客データをさらに活用できるよう、顧客データの民主化を呼びかけています。この技術革新は、銀行業界を他業界との高い連携性を持つプラットフォーム提供者へと進化させると同時に、銀行にエコシステムを拡大し、新規市場への参入機会を与えています。オープンバンキングを利用して、現在、多くの金融サービス機関{...}
コンピュータビジョンとは、コンピュータサイエンスの研究分野の一つであり、人間が視覚を通じて行うのと可能な限り近い方法で、機械が視覚情報を分析、理解できるようにすることに焦点を当てています。コンピュータビジョンの本質は、生の画像や動画から有意義な知見を生成し、テクノロジーシステムが物体を認識し、パターンを検出し、視覚入力に基づいて意思決定できるようにすることです。人工知能 (AI) や機械学習 (ML) の分野と密接に関連するコンピュータービジョンは、大規模なデータセットから学習して精度と適応性を{...}
サプライチェーンマネジメント(SCM)とは サプライチェーンマネジメント(SCM)とは、製品やサービスを効率的かつ効果的に生産し、顧客に提供することを目的として、サプライチェーンのオペレーションを計画、実施、管理するプロセスです。製品やサービスの調達、生産、納品に関わるあらゆる活動の調整と最適化、また情報の流れや財務取引の管理も含まれます。 サプライチェーンマネジメントの主な要素には、サプライヤー管理、インベントリ管理、生産計画とスケジューリング、物流・輸送管理、顧客サービスなどがあります。効果{...}
サーバーレスコンピューティングは、コンピュート・インフラの最新の進化です。 かつて企業は、ウェブアプリケーションを実行するために物理サーバーを必要としていました。その後、クラウド・コンピューティングの台頭により、仮想サーバーを作成することが可能になりました。現在、サーバーレスコンピューティング・モデルでは、クラウドサービス・プロバイダーがインフラ管理の責任を負い、企業の開発者はアプリケーションの作成とデプロイに専念することができます。 サーバーレスコンピューティングにより、企業は開発を加速し、運{...}
サービスとしての Apache Spark(Apache Spark as Spark-as-a-Service)とは Apache Spark は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009 年に研究が開始されて以来、目覚ましい発展を遂げてきました。Apache Spark は現在、50 を超える組織から 200 名以上が参加する、ビッグデータの最大オー{...}
スタースキーマとは スタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート (Data Mart)、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。 1990 年代にラルフ・キンボール (Ralph Kimball)によって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの{...}
ストリーミング分析の仕組みストリーミング分析(イベントストリーム処理とも呼ばれる)とは、イベントストリームという連続クエリを利用し、移動中のデータをリアルタイムに処理するアナリティクス手法です。このイベントストリームは、金融取引、設備故障、ソーシャルメディアへの投稿、Web サイトのクリック、またはその他の測定可能なアクションなど、一連のアクションの直接的な結果として生じる特定のイベントによって動作します。データは、モノのインターネット(IoT)やトランザクション、クラウドアプリケーション、相互{...}
スノーフレークスキーマとは スノーフレークスキーマ(Snowflake)は、スタースキーマを拡張した多次元データモデルで、ディメンションテーブルがサブディメンションテーブルに細分化されたものです。スノーフレークスキーマは、データウェアハウスやデータマート、リレーショナルデータベースの多次元分析を使用した BI(ビジネスインテリジェンス)やレポーティングによく使用されています。 スノーフレークスキーマでは、エンジニアがそれぞれのディメンションテーブルを論理的なサブディメンションに細分化します。この{...}
セマンティックレイヤーの理解 セマンティックレイヤーは、複雑なデータモデルとビジネスユーザーの間のギャップを埋める、ビジネスフレンドリーなインターフェースです。抽象化レイヤーとして機能し、技術的なデータ構造をビジネス用語や概念に変換することで、データアナリストやビジネスユーザーが高度な技術知識を必要とせずにデータへアクセスし、分析し、洞察を得ることを可能にします。 定義と目的 セマンティックレイヤーは、現代のデータスタックにおける中間的な翻訳レイヤーとして機能し、生のデータをビジネスに意味のある{...}
チェンジデータキャプチャ(CDC)とは?チェンジデータキャプチャ(CDC)は、挿入、更新、削除など、データセットに加えられた行レベルの変更を識別して記録するデータ統合技術です。テーブル全体を繰り返し抽出する代わりに、CDCは変更されたレコードのみをキャプチャし、ダウンストリームシステムに適用します。この増分アプローチは、完全な更新に伴うコストや遅延を発生させることなく、アナリティクスプラットフォーム、業務アプリケーション、機械学習パイプラインを最新の情報に同期させます。従来のバッチパイプラインは{...}
企業はかつてないほどデータに依存しています。データを効果的に活用するためには、最適なデータプラットフォームの利用が重要であり、そのためには、データ移行が必要になることもあります。 データ移行に関するご質問や、データ移行を成功させる手法について、Databricks がお答えします。 データ移行とは データ移行とは、デジタル情報をあるプラットフォームから別のプラットフォームに移動させるプロセスです。これには、ストレージシステム、コンピューティング環境、データベース、データセンター、または他のアプリ{...}
データインジェスチョン(Data ingestion) は、データ取り込みを意味し,データエンジニアリングライフサイクルの最初のステップです。データベース、SaaSアプリケーション、ファイル、API、IoTデバイスなど、多様なソースからデータを収集し、データレイク、データウェアハウス、レイクハウスといった集中リポジトリに取り込みます。これにより、企業はデータを整理・統合し、分析や AI を活用したデータドリブンな意思決定を行えるようになります。従来、データの取り込みは、カスタムスクリプトやApa{...}
データインテリジェンスは、人工知能(AI)システムを活用してデータを学習、理解、推論するプロセスであり、カスタム AI アプリケーションの作成を可能にし、企業全体でのデータアクセスを民主化します。 {...}
データウェアハウス(DWH)とは? データウェアハウス(DWH)は、複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。主に、ビジネスインテリジェンス(BI)、レポート作成、データ分析に使用されます。データウェアハウスでは、POS システム、インベントリ管理システム、マーケティングや販売データベースなどの業務システムに蓄積されたデータを、迅速かつ容易に分析可能です。データは、オペレーショナルデータストア(ODS){...}
データエンジニアリングとは、分析、レポート作成、機械学習、意思決定のために、データを収集、保存、変換、配信するシステムを設計、構築、維持する業務です。データが実際に時間通りに、適切な状態で利用できるようにすることです。データエンジニアリングは、データの信頼性を高め、より迅速で優れた意思決定を可能にするパイプラインを構築し、組織の成長に合わせてデータを拡張できるようにするため、組織にとって不可欠です。AI、machine learning、高度なアナリティクスは、適切に設計されたデータと信頼性の高{...}
データ可観測性とは、組織がビジネスに影響を及ぼす前にデータの問題を検出、診断、防止できるように、取り込みパイプラインからストレージレイヤー、下流のアナリティクスに至るデータシステム全体の健全性、品質、信頼性、パフォーマンスを継続的にモニタリングする実践とプロセスです。データ可観測性は、自動モニタリング、異常検知、根本原因分析、データリネージの追跡といったアクティビティを通じて、ライフサイクル全体にわたるデータの状態を把握することに重点を置いています。これらのアクティビティは、組織がデータのダウン{...}
データカタログとはデータカタログは、組織のデータ資産にとって究極の「宝の地図」として機能する、一元化されたインベントリおよび管理システムです。データカタログは、データ専門家とビジネスユーザーがエコシステム全体でデータを発見、理解、効果的に活用できるようにする、メタデータの包括的で検索可能なリポジトリを提供します。これは、データに関する高度な図書館のカタログシステムのようなもので、データセット、その構造、リネージ、品質、使用パターンに関する情報を整理し、データのアクセス性と信頼性を高めます。{...}
データガバナンスとは データガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。 ビジネスにおけるデータガバナンスのメリット データの量と複雑さの増大に伴い、コアビジネスの強化につながるデータガバナンスに注目しています。データガバナンスはビジネスに次のようなメリットをもたらします。 データの品質:{...}
過去数年間で、リアルタイムデータの需要は急速に増加しています。組織はますます、データストリームを活用したアプリケーションやプラットフォームを構築し、リアルタイムの分析と機械学習を提供してビジネスの成長を促進しています。データを継続的に収集、処理、分析することで、リーダーは即時の洞察を得ることができ、より迅速な意思決定を可能にし、より正確な予測を行うことができます。 企業はリアルタイムデータストリーミングを活用して、運用システムのビジネス取引や潜在的な詐欺を追跡したり、ダイナミックな価格モデルを通{...}
現代の高度に接続された環境では、サイバーセキュリティの脅威や内部リスクが常に課題となっています。組織は、保有するデータの種類を可視化し、データの不正使用を防止し、データにまつわるリスクを特定して軽減する必要があります。以下のセクションでは、データセキュリティが不可欠な理由、一般的なデータセキュリティリスク、不正アクセス・盗難・破損・ポイズニング・偶発的な紛失から組織を守るためのデータセキュリティのベストプラクティスについて解説します。データセキュリティとはデータセキュリティとは、データのプライバ{...}
データセットとは データセットとは、分析や処理のために組織化され、一緒に保存されたデータの構造化されたコレクションです。データセット内のデータは通常、何らかの形で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。例えば、データセットには、ビジネスデータ(売上高、顧客の連絡先情報、トランザクションなど)のコレクションが含まれている場合があります。データセットには、数値からテキスト、画像、音声記録まで、さまざまな種類のデータを含められます。データセット内のデータは通常{...}
データを扱う仕事をしていれば、データを扱う仕事であれば、意識せずとも一度はデータパイプラインに触れているはずです。現代の組織の多くは、さまざまなクラウドベースのプラットフォームやテクノロジーを利用して業務を遂行しており、データパイプラインは、これらのプラットフォームから情報にアクセスするうえで重要な役割を担っています。データパイプラインのさまざまなタイプ、その使用方法、組織でデータパイプラインを構築するためのベストプラクティスをご紹介します。データパイプラインとはデータパイプラインとは、あるシス{...}
データフローとは データフローは、システムのアーキテクチャ内でデータがどのように移動するか、すなわち、あるプロセスやコンポーネントから別のプロセスやコンポーネントへデータがどのように移動するかを説明します。コンピュータシステム、アプリケーション、ネットワーク内で、データがどのように入力、処理、保存、出力されるかを示します。データフローは、IT システムの効率性、信頼性、セキュリティに直接的な影響を与えるため、システムがその出力を最適化するように適切に構成されていることが極めて重要です。 データフ{...}
データプラットフォームとは データプラットフォームとは、企業が抱える膨大なデータの統合、管理、分析を行うためのデータ基盤のことです。さまざまなデータソースの情報を一元管理することで、より迅速なデータ分析や処理、社内でのスムーズなデータ共有などを可能にします。包括的なデータプラットフォームには、予測分析、データ視覚化、ロケーションインテリジェンス(LI)、自然言語処理(NLP)、コンテンツ分析など、さまざまな機能を搭載した複数のツールが組み込まれています。その主な目的は、あらゆる種類のデータを実用{...}
データボルトとはData Vault(データボルト)とは、データモデリングのデザインパターンで、エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。データボルトは、ハブ・リンク・サテライトの 3 種類のエンティティで構成されます。ハブは、ビジネスの中核となるコンセプトを、リンクは、ハブ間のリレーションシップを表します。サテライトは、ハブに属する情報やハブ間のリレーションシップに関するデータを格納します。データボルトは、レイクハウスのパラダイムを採用する組織に適したデータ{...}
データマイニング入門データマイニングは、大量のデータから有意義なパターン、関係性、知見を発見するプロセスです。統計学、machine learning、データマネジメントの手法を利用して、単純なクエリーやレポートではすぐには明らかにならないシグナルを浮かび上がらせます。組織がアプリケーション、センサー、トランザクション、デジタル インタラクションから、かつてないほど多くのデータを収集する現代において、データマイニングは、その生情報をより良い意思決定をサポートする知識に変えるための構造化された方法{...}
データマーケットプレイスまたはデータマーケットとは データマーケットプレイスまたはデータマーケットは、データの共有とコラボレーションを可能にするオンラインストアです。データプロバイダと消費者をつなぎ、高品質で一貫性のあるデータ資産を安全な環境で共有・取引する機会を提供します。企業はマーケットプレイスを利用して、自社のデータセットを強化したり、データを収益化したり、データ製品やサービスを提供することができます。 {...}
データは企業にとって不可欠であり、技術革新と進歩の原材料となります。その重要性は、組織がよりデータ中心、意思決定中心になるにつれて高まっており、それに対応しようとする組織にとって大きな課題となっています。レガシーデータレイク (Data Lake)とデータウェアハウスがサイロ化し、データの可視性が低下し、データ処理が遅く複雑になることで、この問題を引き起こしています。 このような障壁やボトルネックはコラボレーションを妨げ、貴重なデータリソースが活用されないままになってしまいます。企業がデータを最{...}
データモダナイゼーションの急務データモダナイゼーションとは、アジリティ、イノベーション、データドリブンな意思決定を可能にするための、組織のデータインフラストラクチャ、プラクティス、ツールを包括的に変革することです。これは、単一のテクノロジーのアップグレードや1回限りのプロジェクトではありません。そうではなく、データモダナイゼーションは、組織が変化に迅速に対応し、大規模なデータから価値を引き出せるように、データの収集、保存、管理、分析の方法を再考するものです。組織から「データモダナイゼーションとは{...}
データモデリングは、情報を効率よく保存・検索・分析できるように、データ構造を設計し整理するための重要なプロセスです。これはあらゆるデータウェアハウスのアーキテクチャの基盤であり、効果的なデータモデリングは、組織が収集するさまざまなデータの種類を分析・定義し、データ同士や構造のつながりを示すことで、データの可能性を最大限に引き出すのに役立ちます。データモデリングとは、データの保存、整理、アクセスのされ方を示すテキスト、記号、図を体系的にまとめた表現です。これにより、データベースを効果的に設計・管理{...}
データリテラシーとは?データリテラシーとは、データを効果的に読み、扱い、分析し、伝達する能力のことです。データが何を意味し、どのように作成され、どのように利用されるかを理解し、適切な問いを立て、データを正しく解釈し、情報に基づいた根拠のある意思決定ができるようになることです。データリテラシーは思考スキルです。データサイエンティストになったり、機械学習モデルを構築したり、複雑なSQLやPythonのコードを書いたりすることではありません。データについて批判的に考え、得られた知見を明確かつ正確に説明{...}
データリネージとは何ですか?データリネージとは、起点から利用先まで、時間の経過に沿ってデータとAIの来歴を記録・追跡・可視化するプロセスです。効果的な データリネージ により、データチームは、データがどのように変換され、自社のデータ資産全体をどのように流れていくかを、最初から最後まで把握できます。データリネージは、データのライフサイクル全体で、データに関連する重要な情報やイベントを記録します。たとえば次の内容が含まれます:データの提供元それを作成するために、ほかにどのようなデータセットが使われま{...}
データレイクハウス (Data Lakehouse)とは? データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティ (Scalability)とデータウェアハウス (DWH)のデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで、あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。 {...}
データ仮想化とは?データ仮想化は、データを物理的に移動したりコピーしたりすることなく、組織が複数のデータソースからの情報の統合ビューを作成できるようにするデータ統合手法です。コアとなるデータ仮想化技術として、このデータマネジメントのアプローチは、データ利用者が単一の仮想レイヤーを通じて、異なるシステムからデータにアクセスすることを可能にします。データを中央リポジトリに抽出する代わりに、データ仮想化はデータコンシューマーとソースシステムの間に抽象レイヤーを配置します。基盤となるデータは元の場所に残{...}
データ共有とは Data Sharingは、同じデータを1人または多数の消費者が利用できるようにする機能です。 増え続けるデータは、あらゆる企業にとって戦略的資産となっています。 データの共有は、ビジネスユニット内だけでなく、外部ソースからのデータの消費も含め、新たなビジネスチャンスを可能にするテクノロジーです。 データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データ収益化による新たな収益の創出Stream 。 {...}
データ処理とは?データ処理とは、生データを意味があり行動につながるインサイトに変える一連のプロセスのことです。組織は、競争力を保つため、構造化データと非構造化データをリアルタイム(または大規模に)処理し、迅速で正確なインサイトを得るために、これらのシステムに頼っています。本質的には、データ処理は、生データを収集し、そのデータを整えて変換し、保存に向けて準備することです。このサイクルは、ビジネスインテリジェンスや自動化から、科学研究や機械学習まで、あらゆる領域を支えます。そして、運用ダッシュボード{...}
データ分類とは、組織にとってのデータの機密性、価値、リスクに基づいて、明確に定義されたカテゴリにデータを整理するプロセスです。これらのカテゴリは(多くの場合、公開、社内、機密、制限付きなどのレベルで表現されます)、誰がアクセスできるか、どのように保護すべきか、どこに保存または共有できるかなど、ライフサイクル全体にわたるデータの取り扱い方法を定めます。データは組織の最も貴重な資産の 1 つですが、すべてのデータが同じレベルのリスク、機密性、ビジネスへの影響を持つわけではありません。顧客記録、財務諸{...}
データ収集とは何ですか?データ収集とは、後に意思決定、知見、データドリブンシステムの強化に使用される情報を、さまざまなソースから体系的に収集および測定することです。データ収集は、データライフサイクルの最初の段階です。これは、組織が処理、保存、分析を行う前に収集されるすべての生情報を表します。両者は密接に関連していますが、データ取り込みとは異なります。データ収集は収集される生情報という「何」を表し、データ取り込みは処理、保存、分析、意思決定、アクションのためにそのデータを組織のエコシステムに移動さ{...}
データ可視化とは、生データを視覚的な形式に変換して、パターンや関係性を解釈しやすくするプロセスです。生データをグラフ、プロット、地図などの形式に変換すると、抽象的な情報が空間的な構造に落とし込まれ、人間が情報を自然に処理・消費する方法と一致します。この分野の先駆者は統計学者のエドワード・タフティです。彼は、データが豊富な可視化は、利用可能なすべてのデータを1つのフォーマットで表現すべきだと主張しました。これらの表現は、注意深く研究できるほど詳細であると同時に、一目で全体的なパターンや傾向を把握で{...}
これまで企業は、さまざまな複雑なデータセットに依存して意思決定を行っています。企業が効果的かつ戦略的な意思決定を行うためには、このデータが信頼でき、正確で、適切であることが極めて重要です。このことは、業界がAI機能の活用に適応するにつれて、さらに重要になります。AIとアナリティクスは、正確な予測と意思決定を行うために、クリーンで質の高いデータに依存しています。 信頼性の低いデータは、AIアルゴリズムの信頼性を低下させるだけでなく、組織に広範な影響を与える可能性があります。不完全なデータや欠落した{...}
データ変換とは データ変換とは、データソースから抽出された未加工データを利用可能なデータセットに変換するプロセスです。多くの場合、データパイプラインには複数のデータ変換が含まれ、煩雑な情報をクリーンで質の高い、信頼できるデータに変換します。組織はこのデータを活用して運用ニーズを満たし、実用的なインサイトを取得できます。データ変換プロセスは、データエンジニアリングにおける重要なプロセスです。 {...}
データ管理とは まずデータ管理の定義について説明します。 データ管理とは、組織のデータをライフサイクル全体にわたって整理、処理、保管、保護、分析することです。効率的にデータを取り扱うことで、情報の安全性と信頼性を確保できます。 効果的なデータ管理により、業務の効率化や正確なビジネス分析が可能になり、それに基づいて戦略的な意思決定を行うことができます。また、法的要件にも適切に対応できます。すなわち、データ管理は、データガバナンス戦略に従ってデータライフサイクルを技術的に実行するプロセスといえます。{...}
データの量、データソース、データの種類の増大に伴い、組織はデータを変換し、ビジネスインサイトを導き出すためのツールや戦略をますます必要としています。未加工の煩雑なデータをクリーンで高品質なデータに処理することは、データ自動化を実現するための重要なステップです。以下のセクションでは、データ自動化とその使用方法について説明し、組織内でデータ自動化プラクティスを構築するためのベストプラクティスを考察します。データ自動化とは?データ自動化は、データ管理の手法としてますます普及しています。データ自動化によ{...}
ニューラルネットワークとは ニューラルネットワークとは、層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニューロンと呼ばれる相互に結合する処理要素を特徴としており、出力機能を生成します。ニューラルネットワークは、入力層と出力層で構成されており、その多くには隠れ層があります。この隠れ層は、入力を出力層で使用できるものに変換するユニットで構成されています。 ニューラルネットワークアーキテクチャのタイプ 人工ニューラルネットワークとしても知られるニューラルネットワークは{...}
コンピューティングにおけるハッシュテーブル [ハッシュマップ] とは、キー [一意の文字列または整数] に基づいてオブジェクトにほぼ直接アクセスできるデータ構造です。ハッシュテーブルは、バケットやスロットの配列にインデックス計算を行うために、ハッシュ関数を使用し、そこから目的の値を見つけます。使用されるキーの主な特徴は次のとおりです。社会保障番号、電話番号、口座番号などのキーを使用します。キーは一意である必要があります。各キーは、値に関連付け(マッピング)されます。ハッシュバケットは、ソートや検{...}
バイオインフォマティクスは、膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。 バイオインフォマティクスは、生物学のデータの保存、取得、整理、分析を行うバイオテクノロジーにITを活用することを指します。膨大なデータ量がゲノム配列決定プロジェクトや他の研究から生成されており、このデータ急増により、実に生物学における課題のほとんどは、膨大な計算の必要性に迫られています。バイオインフォマティクスという用語は、1970年にポーリーン・ホフヴェイ(Paulien Hog{...}
ビジネスインテリジェンス(BI)は、ビジネスデータから実用的な知見を生成するために設計された一連の技術、プロセス、戦略です。 BIシステムは、ビジネスオペレーションの生データを収集・保存し、それを分析することで、より良い意思決定をサポートする有意義な情報に変換します。 ビジネス・アナリティクス(BA)は、多くの専門家によってBIのスーパーセットと考えられています。統計や数学を用いてデータを解釈し、意味のある知見を抽出することと定義されることが多いです。 BIとBAは、組織が正確でタイムリーなデー{...}
ビジネスインテリジェンス(BI)ツールは、ビジネスデータを収集・処理・分析・提示するために設計された重要なソフトウェア群です。これらのツールの本質は、生データを組織全体の戦略的意思決定を支える実用的なインサイトへと変換することにあります。BIツールは基本的なレポーティングやデータ可視化から、高度な分析や予測モデリングまで幅広い機能を包含します。BIツールの主な目的は単なるデータ提示にとどまりません。複雑なデータセットとビジネス理解をつなぐ架け橋として機能し、組織がトレンドを把握し、パフォーマンス{...}
ビジネスインテリジェンス(BI)プラットフォームは、組織がデータを収集・理解・可視化し、根拠に基づく意思決定を行えるようにする包括的なテクノロジーソリューションです。これらのプラットフォームは企業のデータ戦略を支える技術的な土台となり、組織全体から集まる生の情報を、競争優位をもたらす実用的なインサイトへと変換します。BIの概念は1865年まで遡ります。リチャード・ミラー・デヴェンスが、銀行家サー・ヘンリー・ファーネスが優れた情報収集によって競争優位を得たことを記したのが始まりです。1960 年代{...}
データ分析とビッグデータ分析の違いHadoop が開発される以前は、最新のストレージと計算システムの基盤となる技術には限りがあり、企業での分析はスモールデータに制限されていました。しかし、このような比較的簡易な形式でも、特に新しいデータソースの統合においては、分析が困難なケースが生じていました。従来のデータ分析は構造化データのテーブルで構成されたリレーショナルデータベース(SQL データベースなど)の使用に依存しています。データを分析用のデータベースに取り込む前に、未加工データの各バイ{...}
ファインチューニングの理解 特定の目的のために人工知能(AI)や機械学習 (ML)モデルをトレーニングする場合、データサイエンティスト とエンジニアは、ゼロから新しいモデルをトレーニングするよりも、事前にトレーニングされた既存の大規模言語モデル(LLM)を修正する方が簡単でコストがかからないことに気づきました。 基礎となる大規模言語モデルは、膨大なデータセットで訓練された強力で汎用的なAIであり、幅広いトピックやタスクにわたって人間のようなテキストを理解し、生成します。 既存のモデルのディープラ{...}
プロンプトエンジニアリングは、人工知能(AI)開発の最前線にある新しい分野で、生成AI (GenAI)モデルの効果的な入力を作成する重要なプロセスに焦点を当てています。 AIシステムがますます高度化するにつれ、AIと効果的にコミュニケーションする能力は極めて重要なスキルとなっています。プロンプトエンジニアリングは、人間の意図と機械の理解のギャップを埋め、AIツールが最適なアウトプットを生み出すことを保証します。 プロンプトエンジニアリングの核心は、AIモデルに与える自然言語命令の設計と改良です。{...}
ベイジアンニューラルネットワークとは ベイジアンニューラルネットワーク(BNN)とは、過学習の制御を目的として、事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると、ベイジアン手法は統計的方法論を使用して、モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む、あらゆるものがそれに付随する確率分布を持つようにすることです。プログラミング言語において、特定の値を取得できる変数は、その特定の変数にアクセスする度に同じ結果になります。まず、一連の入力特徴量の加重和に{...}
ベクトルデータベースとは何ですか? ベクトルデータベースは、データを高次元のベクトルとして保存・管理するために設計された特殊なデータベースです。ベクトルとは、データに含まれる特徴や属性を数学的に表現したものです。行と列で構成された構造化データの取り扱いに適している従来のデータベースとは対照的に、ベクトルデータベース構造は、類似性に応じてグループ化された固定次元数のベクトル表現として情報を配置します。 ベクトルデータベース内の各ベクトルは特定の次元数で構成され、その次元数は数十次元から数千次元まで{...}
ホスト型の Spark とは Apache Spark とは、2009年に UC バークレーで、高速性、使いやすさ、高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Spark は、Scala、Java、Python、R の高レベル API と、データ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQL とデータフレーム用の Spark SQL、機械学習用の MLlib、グラフ処理用の Grap{...}
データブリックスの Delta パイプラインとマテリアライズドビュー 概要 Delta パイプラインは、データパイプラインのライフサイクルを管理する API と UI を提供します。オープンソースのフレームワークがデータエンジニアリングチームによる ETL の開発をシンプルにし、データの信頼性を向上させ、運用の拡張を支援します。データ変換のコーディングやジョブのスケジューリングを行う代わりに、宣言型パイプラインを構築することで、データの最終状態を容易に定義できます。さまざまなタスク間の依存関係を{...}
マネージドSparkとはマネージド Spark は、バッチ処理、クエリ、ストリーミング、機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは、このような自動化を使用することで、オンデマンドでクラスタの迅速な作成や管理を容易にし、タスクが完了したときにクラスタをオフにすることができます。ワークロード、パフォーマンス要件、または既存のリソースに基づいてクラスタのサイズを設定することも可能です。さらに、数秒で柔軟にスケールアップ・ダウンできる、完全に管理された Sp{...}
 メダリオンアーキテクチャとは メダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。 {...}
はじめに: モデル コンテキスト プロトコルの理解モデル コンテキスト プロトコル (MCP) は、AI アプリケーションが外部のデータソース、ツール、システムとシームレスに接続できるようにするオープン スタンダードです。モデルコンテキストプロトコルは、AIシステムにおけるUSB-Cポートのようなものだとお考えください。USB-Cポートがデバイスのコンピュータへの接続方法を標準化するように、MCPはAIエージェントがデータベース、APIs、ファイルシステム、ナレッジベースなどの外部リソースにアク{...}
モデルリスク管理とは、モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。金融サービスにおけるモデルリスクとは、精度が低いモデルを使用して意思決定を行うことで生じる損失リスクを意味します。多くの場合は金融証券の評価に使用され、消費者信用スコアの付与、クレジットカードの不正取引のリアルタイムな確率予測、マネーロンダ{...}
データアーキテクチャは、組織内でデータを管理するために使用される、概念、標準、ポリシー、モデル、ルールのフレームワークとして定義されます。データアーキテクチャは、データマネジメントが組織のビジネス目標に沿うように、企業データのプロセスとフローを整理するための設計図です。データアーキテクチャには、以下のようなデータマネジメントのあらゆる側面が含まれます。コレクションストレージ変換ディストリビューション使用{...}
小売業におけるリアルタイムデータ 小売業におけるリアルタイムデータとは、データへのリアルタイムなアクセスを意味します。バッチ式のアクセス、分析、コンピューティングからリアルタイムアクセスに移行することで、データは常時稼働の状態となり、正確でタイムリーな意思決定とビジネスインテリジェンス(BI)の推進が可能になります。需要予測、パーソナライゼーション、店頭在庫の可用性、到着時間予測、オーダーピッキングとコンソリデーションといったリアルタイムのユースケースは、サプライチェーンのアジリティ向上、サービ{...}
リアルタイム分析とはリアルタイム分析とは、ストリーミングデータを生成時に収集し、アナリティクスを通じて即座に活用することを指します。データの生成から分析までのレイテンシを最小限に抑えることができます。リアルタイム分析は、広告やオファーのパーソナライズ、スマートプライシング、予測メンテナンスをはじめ、データの適時性が重要なアプリケーションでよく利用されます。リアルタイム分析は、データストリーミングの基本機能に基づいて構築されています。データストリーミングとはデータ処理には、バッチ処理とストリーミン{...}
リテール向けレイクハウスリテール向けレイクハウスは、Databricks 初の業界特化型レイクハウスです。ソリューションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。リテール向けレイクハウスは、テクノロジー、パートナー、ツール、業界イニシアチブの集大成であり、データと AI(人工知能) による強力なコラボレーションを推進します。リテール向けレイクハウスの主要な構成要素は、次の 4 つです。データと AI の統合プラットフォーム:{...}
リレーショナルデータベースとは?リレーショナル データベースは、リレーション(関係)と呼ばれる共有の列と行を介して相互にリンクできるテーブルにデータを格納し、アクセスを提供するデータベースの一種です。テーブルには、テーブル間のさまざまな関係を示す一意の識別子(キー)があります。このリレーショナルモデルはスプレッドシートモデルと似ており、行は顧客、口座、取引などの個々のレコードを表し、列は顧客ID、口座番号、取引額などのレコードの属性を表します。このモデルでは、テーブル間のリレーションシップを確立{...}
予測分析とは予測分析とは、新しいデータと過去のデータを活用してパターンを抽出し、将来の結果や傾向を予測する高度なアナリティクス手法です。予測分析の仕組み予測分析では、統計分析技術、分析クエリ、データマイニング、予測モデリング、自動機械学習アルゴリズムなどの幅広いアナリティクス技術をデータセットに適用し、特定の事象が発生する確率を数値化し、what-if シナリオやリスク評価を含む予測モデルを構築します。予測分析により、組織はデータに含まれるパターンを見つけて利用することで、リスクと機会を検出する{...}
予測型メンテナンスとは 予測型メンテナンスとは、一言でいうと、予め定められたスケジュールだけでなく、設備の実際の状態や状況に基づき、いつ頃、具体的にどのようなメンテナンスを行うべきかを判断し、設備の稼働時間と生産性を最大化するためのものです。故障を予測や予防し、適切な定期メンテナンスを実施することで、コストのかかる機器のダウンタイムを削減できます。 IoT とセンサーデータが機器からストリーミングされることで、予測型メンテナンスは、製造業者が効率的に機械が停止するタイミングを予測することを可能に{...}
人工ニューラルネットワークとは 人工ニューラルネットワーク(ANN)とは、人間の脳内にある神経細胞(ニューロン)の動作を模したコンピューティングシステムです。 人工ニューラルネットワークの仕組み 人工ニューラルネットワーク(ANN)は、階層で構成される重み付き有向グラフとして表現され、構造が明確になります。これらの階層は人間の脳の生体ニューロンを模した多数のノードを特徴とし、相互に接続され、活性化関数を含みます。第1層は、外部から未処理の入力信号を受信します。人間の視覚処理における視神経に類似し{...}
大規模言語モデル(LLM)とは 大規模言語モデル(LLM)は、自然言語処理(NLP)モデルの新しいクラスです。自由形式の質問への回答、チャット、コンテンツの要約、任意に近い命令の実行、翻訳、コンテンツやコードの生成などのさまざまなタスクにおいて、従来のモデルを大きく上回る性能と能力があります。LLM は、高度な機械学習アルゴリズムを使用して膨大なデータセットからトレーニングされ、人間の言語のパターンや構造を学習します。 {...}
拡張アナリティクスは、ビジネスインテリジェンス(BI)の進化形であり、データ分析のワークフローに人工知能(AI)とmachine learning(機械学習)を統合したものです。拡張アナリティクスは、人間のアナリストに取って代わるものではなく、反復的なタスクを自動化し、隠れた知見を明らかにし、組織全体でデータドリブンな意思決定へのアクセスを民主化することで、アナリストの能力を強化します。{...}
一般に DAG として知られている有向非巡回グラフは、データ エンジニアリング、アナリティクス、AI における基本概念です。タスク、依存関係、情報の流れを構造的に表現する方法を提供します。データパイプラインの構築、machine learningワークフローのオーケストレーション、因果関係の研究など、どのような場合でも、DAG はステップ間の接続方法やラン順序をマッピングするためのシンプルで信頼性の高い方法を提供します。DAGは、有向、非巡回、そしてエッジで接続されたノードで構成されるという3つ{...}
まとめRAG(検索拡張生成)の仕組みを学び、大規模言語モデル(LLM)とリアルタイム外部データを組み合わせることで、より正確で関連性の高い出力を実現する方法を理解します。高額な再学習を行うことなく、幻覚の削減やドメイン固有の回答提供など、RAGがどのように具体的な課題を解決するかを確認します。カスタマーサポート、コンプライアンス、エンタープライズ検索などの分野におけるRAGの実際のユースケースと今後のトレンドを探ります。検索拡張生成(RAG)とは検索拡張生成(Retrieval Augmente{...}
構造化ストリーミングとは、Spark 2.2 以降で実運用が可能となった、ストリーミングデータ処理向けの高レベル API です。構造化ストリーミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、インクリメンタル処理が可能になります。構造化ストリーミングの最大のメリットは、事実上コードを変更することなく、ストリーミングシステムから迅速に価値を引き出し、AI(人工知能)によるリアルタイム分析や予測に{...}
2年前までは、機械学習システムに完全に依存する製品を構築するためのリソースと専門知識を持っていたのは、巨大なテクノロジー企業だけでした。Google による広告オークション、TikTok によるコンテンツの推薦、Uber による動的な価格調整などを考えてみてください。これらのチームは、最も重要なアプリケーションを機械学習で動かすために、機械学習システムのデプロイという独自のニーズを満たすカスタム インフラストラクチャを構築しました。それから数年が経ち、本番運用での機械学習を民主化するために、ML{...}
通常、機械学習アルゴリズムを実行する際には、前処理、特徴抽出、モデル適合、検証など一連のステージのタスクが含まれます。例えば、テキスト文書を分類する場合、テキストのセグメンテーションやクリーニング、特徴量の抽出、交差検証での分類モデルのトレーニングなどがあります。各ステージに利用できるライブラリは多数ありますが、特に大規模なデータセットを使用する場合、それぞれのライブラリを全体につなげる作業は容易ではありません。また、ほとんどの機械学習ライブラリは、分散計算用に設計されていないか、パイプラインの{...}
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティ{...}
汎用人工知能(AGI)とは、人間レベルのあらゆる知的タスクを実行できる、仮説上の人工知能(AI)の一形態を指します。より具体的には、汎用人工知能とは、タスク固有のプログラミングを必要とせず、広範で柔軟かつ転移可能な知能を持つシステムを指します。汎用人工知能(AGI)は、より広範な AI のカテゴリとは異なります。後者には、音声認識、画像分類、翻訳、レコメンデーションなど、通常は人間の知能を必要とするタスクを実行するように設計された、あらゆる計算システムが含まれます。機械学習で構築されたシステムを{...}
深層学習とは 深層学習とは、人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため、深層学習モデルはディープニューラルネットワークと呼ばれます。深層学習は、データ表現の学習に基づく機械学習手法の1つで、従来のタスク固有のアルゴリズムとは異なります。 深層学習の仕組み 深層学習では、コンピュータモデルが、画像、言語、または音声から直接分類タスクを実行できるように学習します。タスクを繰り返し実行して、結果改善のための微調整を行います。深層学習{...}
機械学習のための特徴量エンジニアリング特徴量エンジニアリングは、未加工データを機械学習モデルの開発に利用可能な特徴量に変換するプロセスで、データ前処理とも呼ばれています。ここでは、特徴量エンジニアリングの主要な概念と、MLのライフサイクル管理における役割について説明します。機械学習における特徴量とは、モデルのトレーニングに使用される入力データのことです。これらは、モデルが学習するエンティティの属性です。未加工データは通常、ML モデルの入力として使用する前に処理する必要があります。優れた特徴量エ{...}
更新日: 2025年5月15日著者について:Mike Del Balso、Tectonの CEO & 共同創業者Willem Pienaar、Feastのクリエイターデータチームは、機械学習の本番運用にはデータパイプラインの作成をはるかに超えるデータの問題を意識するようになっています。以前の投稿「Why We Need DevOps for 機械学習 Data」では、機械学習システムを本番環境に導入する際にチームが直面する主要なデータ課題のいくつかを取り上げました。適切な生データへのアク{...}
生成 AI は人間の創造、仕事、コミュニケーションの方法を変えようとしています。Databricks が生成 AI の仕組みと今後の方向性について解説します。 {...}
総合人工知能( UAI )は、開発者カンファレンス「F8 」で Facebook によって発表されました。UAI は Facebook 主導で開発された、PyTorch と Caffe の 2 つの深層学習フレームワークを統合したもので、PyTorch は大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て、Caffeは、Android や Raspberry Pi デバイスのモデル展開に焦点を当てています。スコープが狭い Facebook の統合 AI とは異なり、統合{...}
統合データウェアハウスとは統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は、業務に関わるあらゆるデータを保持し、エンタープライズ全体でのアクセスが可能な統合データベースです。現在、多くの企業ではデータが部門ごとに分断された“サイロ化”状態にあります。データの品質、統合、ガバナンスの保守や、メタやマスターデータ、B2B データ交換、データベース、アーキテクチャの管理など、同じ組織内の異なるそれぞれの部門で、多様なデータをさまざまなツールで管理しています。大企業におけるデー{...}
統合データ分析とは、データ処理を AI 技術を統合する新しいソリューションです。企業組織にとっての AI の実現可能性を格段に高め、AI への取り組みを加速化させます。統合データ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、モデル構築のラベル付きデータセットの準備が容易になるため、組織は既存のデータに AI を実行したり、大規模なデータセットに対して AI を繰り返し実行したりできるようになります。 また、統合データ分析では、幅広い AI アルゴ{...}
データブリックスの統合データ分析プラットフォーム は、データサイエンスをエンジニアリングとビジネスに統合し、組織のイノベーションを促進します。データブリックスを統合データ分析プラットフォームとして使用することで、大規模なデータを制限なく迅速に準備し、クリーンアップすることができます。また、このプラットフォームでは、あらゆる AI アプリケーションに対して、ML モデルの継続的トレーニングとデプロイが可能です。統合データ分析プラットフォームを使用するメリットのトップ 3 は次のとおりです{...}
自動化バイアスとは自動化バイアスとは、自動化支援システムや意思決定支援システムに過度に依存し、十分な検証やトラブルシューティングを行わなくなる状態を指します。自動化された意思決定支援システムの利用可能性は高まっており、集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。認知的努力を最小限に抑え、自動化バイアスに依存しがちなのは人間の特性ですが、大規模データに基づくAIや自動化機能においても、同様の傾向が生じる懸念があります。このタイプの{...}
複合 AI システムとは バークレー人工知能研究所(BAIR)のブログの定義によると、複合 AI システムとは、複数の相互に連携するコンポーネントを組み合わせてAIタスクに取り組むシステムです。これらのコンポーネントには、複数のモデルへの呼び出し、データ取得システム、外部ツールなどが含まれる場合があります。例えば、検索拡張世代(RAG)アプリケーションは、モデルとデータ検索システムを組み合わせた複合 AI システムの一例です。複合 AI システムは、さまざまな人工知能(AI)モデルやツール、パイ{...}
複合イベント処理(CEP)とは複合イベント処理(CEP)とは、イベント処理、ストリーム処理、あるいはイベントストリーム処理とも呼ばれ、データベースにデータを格納する前か、場合によっては格納せずに、データを照会する技術を使用した処理です。複合イベント処理は、多くの異なる情報を集約するのに有用で、イベント間の因果関係をリアルタイムで特定、分析する整理ツールです。CEPでは連続的に収集されるイベントをパターンと照合し、イベント内容についての洞察の提供、効果的なアクションの積極的な実行を可能にします。複{...}
設備総合効率( OEE )とは 設備総合効率( OEE ) は、 製造 におけるオペレーションが、予定されている期間中に、その潜在的な能力(設備、時間、材料)に対して、どれだけ利用されているかを示す指標です。製造時間のうち、実際の稼働時間の割合を特定することができます。OEE は、離散的または連続的なプロセスの総合的な性能を示すダッシュボードです。OEE は 100% で最大となり、良い部品だけが( 100% 品質)、最高速度で( 100%&nb{...}
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。連続実行アプリケーションが処理できるユースケースは次のとおりです。 リアルタイムで提供されるデータの更新:開発者は、更新と提供(SparkのJDBCサーバ経由など)の{...}
需要予測とは 需要予測とは、消費者の需要(将来収益)を予測するプロセスです。具体的には、定量的および定性的データを使用して、消費者が購入する商品の品揃えを予測します。 小売業者は、消費者が求めるタイミングで商品を提供できないことで、1 兆円規模の収益機会を逃しています。低精度の需要予測は、需要に即していない商品の陳列につながり、さらには、店頭の在庫切れなどの大きな問題を引き起こします。 リテール向けレイクハウスによる需要予測 リテール向けレイクハウスは、データへのリアルタイムなアクセスを可能にし{...}
高密度テンソルとは、すべての要素を省略せず、連続したメモリ領域に格納する多次元データ構造です。テンソルまたは多次元配列は、多様な多次元データ分析アプリケーションで使用されます。さまざまなオープンソースのサードパーティツールボックスによって拡張された MATLAB suite など、テンソル計算を実行できるソフトウェア製品は数多くあります。MATLAB 単体でも、さまざまな要素ごとおよびバイナリの密なテンソル演算をサポートしています。各ニューロンが前の層の全てニューロンからの入力を受け取り、高密度{...}