2023年5月3日

ようこそOkera： AIを中心としたアプローチでガバナンスを実現する

によって Reynold Xin（レイノルド・シン）, Ali Ghodsi（アリ・ゴディシ）, Matei Zaharia, Patrick Wendell（パトリック・ウェンデル）, ジョナサン・ケラー, サチンタクール、エリカ・エーリによる投稿

Original: Welcome Okera: Adopting an AI-centric approach to governance

翻訳: junichi.maruyama

Databricksは10年にわたり、世界中の組織のためにデータとAIの民主化に力を注いできました。そして、昨年11月のChatGPTのデビュー、そして最近のDolly 2.0の導入以来、すべてのお客様が、AIと大規模言語モデル（LLM）の力をビジネスでどのように活用できるかを私たちに尋ねています。また、その直後には、この新しい世界でデータのセキュリティとプライバシーをどのように守ることができるのか、という質問も寄せられています。

そこで当社は、世界初のAI中心のデータガバナンスプラットフォームであるOkeraを買収する正式契約を締結したことを発表します。Okeraは、データとAIのスペクトルにわたって、データプライバシーとガバナンスの課題を解決します。データの可視性と透明性を簡素化し、LLMの時代に不可欠なデータの理解や、その偏りに対する懸念に対処するために組織を支援します。

AIはデータガバナンスをどう変えるのか？

歴史的に、データガバナンス技術は、洗練度にかかわらず、ある狭い腰の層で制御を実施することに依存しており、この層でワークロードが「壁のある庭」に収まることを要求します。例えば、クラウドデータウェアハウスはアクセスコントロールのためにSQLに依存しており、すべてのワークロードが「SQL」に収まっている限り効率的です。これは数十年前からそうで、データの主な用途は、SQLクエリを生成するビジネス・インテリジェンス・レポートなど、確かにSQL中心だった。

AIの台頭、特に機械学習モデルやLLMの台頭により、このアプローチは不十分になってきています。第一に、AIで使用される多くのデータソースは人間が生成したものではなく、機械が生成したものであるため、企業が管理しなければならないデータ資産の数は指数関数的に増加します。第二に、AIが急速に発展しているため、一企業では最先端の技術を取り込むのに十分な表現力を持つ塀の庭を作ることができない。あるベンダーは、自社のSQLベースのデータウェアハウスエンジンに対してアクセス制御を行うことはできても、オープンソースのライブラリを一つ一つ変更して、ウォールドガーデンの特定の制御に準拠するようにすることはできないだろう。つまり、実績やバイアスといったAI特有のガバナンスの問題は、従来のデータガバナンス・プラットフォームの手の届かないところにあるのです。

OkeraのAIを中心としたガバナンス技術

オケラのデータガバナンス・プラットフォームは、この新しい世界におけるデータガバナンスの課題に対応できる2つの独自技術を提供します。

まず、オケラはAIを搭載した直感的なインターフェースを提供し、個人を特定できる情報（PII）などの機密データを自動的に発見、分類し、タグ付けします。これらのタグにより、データガバナンスの関係者は簡単にコンプライアンスを評価し、データの可視性と制御性を向上させるノーコードアクセスポリシーを作成することができます。また、機密データの利用状況を迅速に監査・分析するためのセルフサービスポータルを提供し、データの利用パターンを確実に監視・追跡できるようにします。これにより、データ資産が爆発的に増加し、その多くがAIで生成されるような状況でも、ガバナンスポリシーが一貫して適用されることを保証することができます。

第二に、オケラは、パフォーマンスを犠牲にすることなくガバナンス制御を実施しながら、任意のワークロードをサポートできる新しい分離技術の開発を進めています。この技術はプライベートプレビュー中で、多くの共同顧客がAIワークロードに特化してテストしています。企業が新しい世界におけるアプリケーションの全領域を効率的にカバーするための鍵となるものです。この新技術の技術的な詳細については、近日中にお伝えする予定です。

OkeraとのUnity Catalog

レイクハウスは、データとAIのアプリケーションを一緒に開発し、LLMを構築するための最高の場所です。私たちのレイクハウス・ビジョンは、これらのワークロードを1つのプラットフォームで統一することを中心に据えています。私たちのレイクハウス・ビジョンの基盤には、すべてのデータおよびAIワークロードのデータガバナンス・レイヤーであるUnity Catalogがあります。私たちは、オケラのAIを中心としたガバナンス技術をUnity Catalogに統合していくつもりです。

当社の顧客は、AIを使用して、属性ベースおよび意図ベースのアクセスポリシーで、すべてのデータ、分析、AI資産（MLモデルおよびモデル機能を含む）を発見、分類、管理できるようになるというメリットを得ることができます。さらに、アナリティクスやAIアプリケーションにおける機密データの使用状況を一元的に監査・報告し、データの系譜を列レベルまで自動的に追跡できる、レイクハウス上のエンドツーエンドのデータ観察可能性という利点もあります。

これらの機能強化により、お客様はクラウド上のデータ資産を全体的に把握できるようになり、単一の権限モデルを使用してアクセスポリシーを定義できるため、AIのユースケースを加速させ、レイクハウス全体で一貫したガバナンスを確保できます。また、今回の買収により、他のデータガバナンスパートナーが使用できる、よりリッチなポリシーのAPIを公開することができ、お客様にシームレスなソリューションを提供することができます。

The Okera Team

Databricksにとって知らない人はいないOkeraチームを迎えることができ、これ以上ないほど興奮しています。Okeraの共同設立者兼CEOであるNong Liは、Databricksやその他の業界が構築しているオープンソースの標準ストレージフォーマットであるApache Parquetを開発したことで広く知られています。彼は、Apache Spark 2.0の10倍の性能向上を実現したベクトル化Parquetとcodegenの取り組みを主導しました。

Okeraの素晴らしい技術を支えているのは、Nongが集めた優秀なチームです。彼らと話を始めた瞬間、この2社が力を合わせ、非常にうまく統合されることがわかりました。

“オケラは、データドリブンな現代企業が、データセキュリティリスクを最小化し、規制遵守を実現しながら、合法的なデータアクセスを加速させることを支援するために設立されました。さまざまなアプリケーションでデータの量、速度、種類が増え続ける中、CIO、CDO、CEOは、この2つの相反する取り組みのバランスを取ることが必要です - 言うまでもなく、これまで複数のクラウドでアクセスポリシーを管理することは、困難で時間のかかる作業でした。多くの組織は、特にLLMの爆発的な増加に伴い、アクセスポリシーを大規模に管理するための十分な技術的才能を持ち合わせていない。そんな彼らに必要なのは、最新のAI中心のガバナンス・ソリューションです。私たちはDatabricksチームに参加し、世界で最も先進的な企業のために、安全でスケーラブルかつシンプルなガバナンスソリューションを構築してきた私たちの専門知識を提供できることを、これ以上ないほどうれしく思っています.” —オケラ共同創業者兼CEO ノン・リー氏

What’s next?

私たちは、Nongと非常に優秀なOkeraチームをDatabricksに迎えることができ、感激しています。来年には、Okeraのコア機能をDatabricksプラットフォームに直接組み込み、Unity Catalogが提供する統一されたAI中心のガバナンス体験をさらに強化することを楽しみにしています。

Stay tuned for more at the Data and AI Summit this June.