メインコンテンツへジャンプ
<
ページ 6
>

サイバーセキュリティ・レイクハウス Part 3: データ解析戦略

November 10, 2023 デレク・キング による投稿 in プラットフォームブログ
この4部構成のブログシリーズ ("Lessons learned from building Cybersecurity Lakehouses," )では、サイバーセキュリティ・データ用のレイクハウスを構築する際に組織がデータエンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用した解決策、ヒント、コツ、ベストプラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。 この第3回目のブログでは、 メダリオンアーキテクチャを 指針として、 半構造化機械生成データの解析に関する いくつかの問題に取り組む。 このブログでは、ログ生成データを解析する際に直面する課題について概説し、アナリストが異常な行動、潜在的な侵害、侵害の指標に関する洞察を得るために、データを正確に取得し、解析するためのガイダンスとベストプラクティスを提供します。 このブログが終わる頃には、Cybers

あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た!

今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。 常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。 良いニュースは? これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。 多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。 しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、 ほとんどの場合 、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。 これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も

Databricksワークスペースに組み込まれたガバナンス機能

November 8, 2023 ポール・ルームサチン・タクール による投稿 in 製品
Databricks Unity Catalogは 、組織がさまざまなデータとAI資産を安全に発見、アクセス、監視、コラボレーションできる統合ソリューションを提供することで、データとAIのガバナンスを簡素化します。 これにはテーブル、MLモデル、ファイル、関数が含まれ、最終的に生産性を高め、Lakehouse環境の可能性を最大限に引き出します。 本日、Unity CatalogがAWSとAzure上の新しいプレミアム・ワークスペースに事前設定され、アクセス可能になったことを発表できることを嬉しく思います。 この機能は、アカウントや地域ごとに順次展開されます。 詳しくは担当者にお問い合わせください。 Unityカタログで事前設定されたワークスペースの概要 ワークスペースにいくつかの新機能が追加されていることにお気づきでしょう。 ワークスペースは、Unityカタログへのアクセス設定済みで提供されます! アカウント管理者によるその後の有効化手順は必要ありません。 ワークスペースにちなんだ名前のカタログが見つかります(こ

サイバーセキュリティ・レイクハウス Part2:取り込み遅延への対応

November 8, 2023 デレク・キング による投稿 in プラットフォームブログ
この4部構成のブログ・シリーズ「 Lessons learned building Cybersecurity Lakehouses 」では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それらを克服するために私たちが現場で使用したソリューション、ヒント、トリック、ベスト・プラクティスを紹介する。 パート1では 、まず統一されたイベントのタイムスタンプ抽出から始めた。 この第2部では、効果的なセキュリティ運用を維持するために不可欠な ログの取り込みの遅延を 発見し、対処する方法について見ていく。 このブログが終わるころには、直面する問題のいくつかと、データ取り込みの遅れを監視し報告するために使用できるいくつかのテクニックをしっかりと理解していることだろう。 なぜデータの取り込みが重要なのか? タイムリーで、正確で、検索可能なログデータは、セキュリティ・オペレーションにおいて非常に重要です。 アナリストは、セキュリティ・イベントやインシ

Databricks + Arcion: Lakehouseへのリアルタイムエンタープライズデータレプリケーション

我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了 したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの 投資先企業としても、長年にわたって緊密に協力してきました。 この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。 リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI

サイバーセキュリティ・レイクハウス Part 1: イベントのタイムスタンプ抽出

November 3, 2023 デレク・キング による投稿 in プラットフォームブログ
この4回にわたるブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について説明し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。 このシリーズでは、サイバーセキュリティのレイクハウスを作りたいとお考えの方に、課題を学び、進むべき道を提案します。 Databricksは、サイバーログを効率的に処理し、標準化するための実用的なローコード・コンフィギュレーション・ソリューションを構築した。 当社のLakehouseプラットフォームは、データエンジニアリングを簡素化し、検索、分析、ストリーム型脅威検知への迅速な移行を促進します。 既存のSIEMやSOARシステムを補完し、不必要に複雑化することなくサイバーセキュリティ運用を強化します。 第1部では、サイバー分析エンジン

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。 通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。 モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。 オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。 レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。 シナリオは以下の通り: 特徴量の入力データがモデル提供時にしか得られない場合。 例えば、 distance_from_restaurantは 、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。 ある機能の価値が、それが使われる文脈によって変化する状況。 デバイスの種類がデスク トップと

HiveテーブルをUnityカタログにアップグレードする方法

このブログでは、Hiveメタストア(HMS)*テーブルをUnityカタログ(UC)にシームレスにアップグレードする方法を、アップグレードするHMSテーブルのバリエーションに応じて異なる方法を使用して、例を挙げて説明します。 *注: Hiveメタストアは、デフォルト、外部メタストア、またはAWS Glue Data Catalogでもかまいません。 簡略化のため、本書では"Hive メタストア" という用語を使用します。 詳細を説明する前に、アップグレードの手順を説明しよう。 評価 - このステップでは、アップグレード対象として特定された既存の HMS テーブルを評価し、アップグレードの適切なアプローチを決定します。 このステップについては、このブログで説明します。 作成 - このステップでは、メタストア、カタログ、スキーマ、ストレージ資格情報、外部ロケーションなど、必要なUCアセットを作成します。 詳細については、ドキュメント( AWS 、 Azure...

Databricks UnityカタログにおけるAI生成ドキュメントのパブリックプレビューを発表

翻訳:Saki Kitaoka. - Original Blog Link 本日、 Databricks Unity Catalog のAI生成ドキュメンテーションのパブリックプレビューを発表します。この機能は、生成AIを活用し、テーブルやカラムの説明やコメントの追加を自動化することで、組織のデータやAI資産の文書化、キュレーション、ディスカバリーを簡素化します。 今日のデータ主導の状況では、データは情報に基づいた意思決定の基盤であり、チームワークの強固な基盤を確立するには、シームレスなデータの発見性と明確性が重要です。しかし、データチームはしばしば、包括的なデータ説明がないために文脈が理解できないという重大な課題に直面します。この不足は、ユーザーがデータの潜在能力を十分に活用する妨げとなるため、このギャップを埋める簡素なデータ記述の必要性が強調されています。 さらに、表や列の適切なメタデータや説明文がないことが問題を複雑にしており、その結果、いくつかの問題が生じています: データの曖昧さ : データの曖昧さ:表

Databricks on Google Cloudの新しいプラットフォームセキュリティ制御でワークスペースを保護する

Databricks on Google Cloudのいくつかの主要なセキュリティ機能の一般提供(GA)を発表できることを嬉しく思います: プライベート・サービス・コネクト(PSC)によるプライベート接続 顧客が管理する暗号化キー アカウント・コンソールおよびAPIアクセス用のIPアクセス・リスト Databricks では、データはお客様の最も貴重な資産であると認識しています。 これらの重要なセキュリティ機能のGAを使用することで、 Databricks Lakehouse Platform 上で静止状態のデータを保護し、データを非公開に保ち、データ流出のリスクを軽減することができます。 このブログでは、よくあるセキュリティの質問を取り上げ、Google Cloudで利用できるようになった新しいセキュリティ機能と機能を説明します。 プライベート・サービス・コネクトによるエンド・ツー・エンドのプライベート・ワークスペース ほとんどの企業顧客は、ユーザーとワークロードがプライベートで隔離された環境でセキュリティデー