業界 | Databricks Blog

ページ 4

意識不明の患者問題：ヘルスケアとライフサイエンスにおけるエンティティ解決の重要性の考察

February 27, 2024 ティム・セドラック、アーロン・ザボーラ、ルーク・ビルブロによる投稿 in 業界

このブログは、Stardogのシニア・ソリューション・アーキテクト、ティム・セドラックとの共同執筆です。ヘルスケアとライフサイエンスでは、正確さがすべてです。エンティティの解決（同じものを参照する複数のデータソースのレコードを特定、照合、統合するプロセス）に関しては、特にそうです。医療機関やライフサイエンス企業にとって、これは複雑かつ重要な課題です。幸いなことに、Databricks データインテリジェンスプラットフォームはこのような問題にも簡単に対応できます。この革新的なソリューションはレイクハウス・アーキテクチャで構築され、セマンティック・レイヤーとしてStardog Voiceboxを使用しています。医療における実体解決の重要性を示す実例を見てみましょう。そして、今日組織が直面している課題に対する解決策についてお話します。 ERにおける患者識別-最も重要なエンティティ解決あなたが救急外来の医師だとしましょう。意識不明の患者（交通事故の被害者）が緊急治療を必要としています。相手の命を救う可

テック・マーケティングに革命を

February 26, 2024 カルロス・トルヒーヨ、コーリー・アブシャー、ナイアル・オルトン、ダン・モリス、レイラ・ヤンによる投稿 in 業界

イントロダクション 1月4日、GoogleがサードパーティCookieの段階的な削除を開始し、デジタルマーケティングの新時代が始まりました。当初、この開発はChromeユーザーの1％にしか影響を与えていませんでしたが、これは来るべき事態の明確なシグナルといえます。サードパーティCookieの終焉は、デジタルマーケティングの新時代の到来を告げるものです。デジタルエコシステムが進化し続ける中、マーケティング担当者はエンゲージメントと成長へのアプローチを再考する必要があります。戦略を見直し、パーソナライズされた効果的なマーケティングを提供しながらも、ユーザーのプライバシーを優先する新しい方法論を取り入れる瞬間です。それと同時に、マーケティング分析において「私たちは何を求めているのか？」という疑問も生じます。クッキーは結局のところ、目的のための手段に過ぎなかったのです。これらのおかげで、私たちが信じていたマーケティングの効果を測定することができました。多くのマーケティング担当者と同様に、私たちは「広告

効率的なデータ管理によるサイバー耐性の強化：M-21-31への対応

February 22, 2024 ブレンダン・バーズネス、スジット・モハンティ、エリック・ポポウィッチによる投稿 in プラットフォームブログ

今日の環境では、積極的なサイバーセキュリティは公共機関にとって極めて重要です。多くの組織では、セキュリティ担当者が効果的な脅威の監視やインシデント対応に必要なログ・データに容易にアクセスできる場所がなかったり、サイロ化された部門に分散していたりします。場合によっては、データは短期間の運用目的のみのために保管される場合もあります。これは、効果的なセキュリティ管理能力を著しく制限し、重要なサイバー情報への安全なアクセスだけでなく、効果的なログ保持の必要性を強調しています。 2021年、ホワイトハウスは OMB M-21-31覚書を発表し、連邦政府機関はサイバーインシデントの検出、調査、修復を支援するため、情報システムのログを複数年にわたって保持することを義務付けました。これにより、政府機関が対処しなければならない複数の課題が生じます。第一に、M-21-31で要求される長期間に渡る大量のデータの保存は、特に比較的高コストのオンプレミスや独自の商用のストレージで行う場合、コストがかかります。さらに、一元化さ

Databricksで成功を加速：antuit.aiの意思決定と顧客インパクトの深堀り

February 15, 2024 ニコラス・ウェグマンによる投稿 in 業界

AIを活用した予測というダイナミックな領域において、企業は戦略的な選択がその軌道を形成することになります。 AIを活用した予測ソリューションのリーダーである antuit.ai （現在はZebra Technologiesの一部）は、そのような極めて重要な決断を下しました。 Antuit.aiは、社内のインフラストラクチャの道を歩むのではなく、Databricks Data Intelligence Platformのレイクハウス・アーキテクチャに軸足を置くことを選択しました。レイクハウスとは？簡単に言えば、レイクハウスはDatabricksが開拓したコンセプトで、ユニークなタイプのデータ管理システムです。データレイクの良い部分（柔軟性やコスト効率など）とデータウェアハウスの良い部分（慎重なデータ管理など）を組み合わせたものです。これにより、より優れたビジネスインテリジェンスと機械学習が可能になります。その設計により、データチームがより簡単かつ迅速に使用できるようになりました。すべてのクラウドで標

米空軍ハッカソン：大規模言語モデルが米空軍の飛行試験にどのような革命をもたらすか

February 9, 2024 ジョーダン・コナー、ルイス・モロス、ライリー・リバモア、ダニー・ライリー、トロイ・ソワロー、ベン・フェアクロス、ティム・ロルツ、Li Yu による投稿 in 官公庁・公共機関

[配布に関する声明 A. 公開を承認；配布は無制限 412TW-PA-24004] 本書は、米国空軍、国防総省、または米国政府の公式な方針または立場を反映するものではありません。米空軍（USAF）ハッカソンとは？空軍テストセンター（AFTC）データハッカソンは、AFTCのテスト専門家が1週間にわたって集まり、新しい技術を駆使して空軍の新たな問題に取り組むコンソーシアムです。今回の第5回ハッカソンでは、大規模言語モデル（LLM）に焦点を当て、AFTCの3つの拠点に44名の参加者が集まり、また遠隔地からの参加者もありました。 OpenAIのChatGPTのようなLLMは、急速に技術分野で注目を集めるようになり、コードの初期化や文章コンテンツの下書きにデジタルアシスタントを利用するというアイデアが主流になりつつあります。このような利点があるにもかかわらず、空軍では、機密情報を領域外に暴露する可能性があるため、商用モデルの短期的な使用には制約があります。機能するLLMを空軍の境界内に配備したいという意欲はありま

リンク不可能なものを繋げる：Databricks ARCによるシンプルで自動化されたスケーラブルなデータリンク

February 6, 2024 ロバート・ウィフィン、マーセル・フェレンツ、ミロシュ・コリックによる投稿 in 業界

2023年4月にDatabricks ARCのリリースを発表し、単一テーブル内のデータをシンプルに自動リンクできるようになりました。本日、オープンでスケーラブル、かつシンプルなフレームワークを使用して、2つの異なるテーブル間のリンクを検索できる機能強化を発表しました。英国司法省が開発し、ARCのリンクエンジンとして機能する Splink は、強力でオープンで説明可能なエンティティ解決パッケージを提供するために存在します。 2つの異なるテーブルの間に共通のフィールドがあり、そのフィールドがテーブル間の直接のリンクとなります。同じNIナンバー（英国の国民保険番号）を持つ2つの記録は同一人物であるはずです。しかし、このような共通のフィールドがないデータをどのようにリンクするのでしょうか？あるいは、データの質が悪い場合ですか？ NIナンバーが同じだからといって、誰かが書き間違えたとは限りません。このような場合、確率的データリンク、つまりファジーマッチングの領域に入ります。下の図は、2つのテーブルをリンク

Welldoc®とDatabricks：カスタマイズされた介入のための改善されたデータで心臓代謝ケアを強化

February 2, 2024 アナンド・アイヤー、アビ・クンバラによる投稿 in 業界

このブログは、Welldocのチーフ・アナリティクス・オフィサー、アナンド・アイヤー（博士、MBA）およびデータ・サイエンス・マネージャー、アビ・クンバラとの共同執筆です。循環代謝ケアとデジタルヘルスが交差することで、現代のヘルスケアは一変します。心代謝性疾患は、長期にわたる持続的な経過をたどることが多く、継続的なケアが必要であり、医療システムの経済的負担に大きく寄与しています。肥満、高血圧、糖尿病、心臓病など、これらの病態はしばしば併存し、相乗的に深刻な健康合併症のリスクを高めます。 CDCによると、全米の医療費4兆1,000億ドルの90％は、慢性疾患や精神疾患を抱える人々のためのものです。デジタルヘルスソリューションは、従来のヘルスケアパラダイムを再構築し、心代謝系疾患のプロアクティブでパーソナライズされた管理における極めて重要なツールとして浮上しています。ウェアラブルデバイスと接続された医療機器により、バイタルサイン、活動レベル、その他の関連する健康データの継続的な追跡が可能になります。これらの

M Scienceはオルタナティブデータを実用的な洞察に変える

February 1, 2024 ベン・トールマン、スペンサー・マーシャルによる投稿 in 業界

機関投資家が利用できるデータセットは何千とあり、それぞれのデータセットが投資の意思決定において重要な洞察を解き明かすと期待されています。何千ものデータセットと、それらの多くの潜在的なアプリケーション全体にわたって、多くの異なるスキーマ、バイアス、長所、欠点があります。これらのデータセットを選択し、テストし、プロダクション化することは重要な仕事です。最終的に投資家が求めているのは、データそのものではなく、データから得られる洞察です。 M Science社の使命は、オルタナティブ（代替）データに基づき、投資家の皆様に実用的な洞察を提供することです。利用可能なデータを検討し、多くのデータをテストして有効性を判断し、企業のKPIを最も予測できるものを選択します。このように厳選されたオルタナティブデータを使用し、書面調査、ダッシュボード、データフィードを通じてデータやデータ由来の製品を提供しています。私たちは20年以上前、純粋にデータ駆動型の最初のリサーチプロバイダーとして、この使命を開始しました。 2000年

通信業界向けデータインテリジェンスプラットフォームのご紹介

January 17, 2024 ブライアン・サフトラー、Steve Sobel による投稿 in 業界

通信業界は、100年以上の歴史の中で最も大きな成長（と変化）の時期にあります。世界的なトラフィックの激増、顧客からのサービス向上への期待、より多くのネットワーク機器の必要性により、ネットワーク管理はより複雑で高コストになっています。さらに、顧客がより質の高いサービスやより良い顧客体験（CX）を求めるようになると、ニーズが満たされない場合に解約する可能性が高くなるというデータもあります。その結果、通信サービスプロバイダー（CSP）は、サービスと運用コストの削減、優れた顧客体験の開発と維持、収益拡大の機会の特定、安全で信頼性の高いサービスによる規模の拡大を支援するために、データとAIのユースケースに注目しています。並大抵のことではありません。このことを示すには、5G、IoT、エッジコンピューティング、AIなど、ビッグデータの新時代を迎えたデジタル技術の爆発的な普及を見れば明らかです。例えば、シスコのVNI（Visual Networking Index）グローバルモバイルデータトラフィック予測によると

製造業における洞察：低レイテンシーのセンサーデータでのストリーミング積分の計算

January 10, 2024 TJサイコタ、バラト・ペリヤサミーによる投稿 in 業界

データエンジニアは、複雑でノイズの多いデータから洞察を引き出すために、数学と統計学に頼っています。最も重要な領域は微積分です。微積分では、積分（最も一般的には曲線下の面積を計算すること）が得られます。これは、レートを表す多くのデータを統合して有用な測定値を生成できるため、エンジニアにとって便利です。例えばポイント・イン・タイムのセンサーの測定値は、一度統合されると、時間加重平均を生成することができます。車両速度の積分は、移動距離の計算に使用できます。データ転送量は、ネットワーク転送速度を統合したものです。もちろん、ほとんどの生徒はある時点で積分の計算方法を学びますし、計算自体もバッチで静的なデータでは簡単です。しかし、機器のパフォーマンスしきい値に基づくアラートの設定や、ロジスティクスのユースケースにおける異常の検出など、ビジネス価値を実現するために低レイテンシーで増分的な積分計算を必要とする一般的なエンジニアリングパターンがあります。ポイント・イン・タイム測定：計算に使用される積分