プラットフォームブログ

ページ 11

MetaのLlama 2とDatabricksでジェネレーティブAIアプリを構築する

July 18, 2023 Xiangrui Meng、Patrick Wendell（パトリック・ウェンデル）、プレム・プラカシュ、Lu Wang、Ankit Mathur による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、Meta社は最新の大規模言語モデル（LLM）である Llama 2 をオープンソースとして公開し、商用利用を開始した1。これはオープンソースAIにとって重要な進展であり、ローンチ・パートナーとしてMetaと協力できたことはエキサイティングでした。私たちは、Llama 2のモデルを事前に試すことができ、その能力とあらゆる可能性のあるアプリケーションに感銘を受けました。今年初め、メタ社は LLaMA をリリースし、オープンソース（OSS）LLMのフロンティアを大きく前進させた。v1モデルは商用利用はできないが、生成AIとLLMの研究を大きく加速させた。 Alpaca と Vicuna は、高品質な指示フォローとチャットデータがあれば、LLaMAをChatGPTのように振る舞うようにファインチューニングできることを実証した。この研究結果に基づいて、Databricksは databricks-dolly-15k 命令追跡データセ

ビートを逃さない： Databricksワークフローにおけるモニタリングとアラートの新機能を発表

July 18, 2023 Roland Fäustlin、Frank Wisniewski による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link この度、 Databricks Workflows の監視・観測機能が強化されました。これには、すべてのプロダクションジョブの実行を一箇所で確認できる新しいリアルタイムインサイトダッシュボード、すべてのワークフローに対する高度で詳細なタスクトラッキング、問題が発生する前に問題をキャッチするための新しいアラート機能などが含まれます。これらの素晴らしい新機能の目標は、あらゆるスキルレベルのデータ実務者の生産性を最適化しながら、すべてのプロダクション・ワークフローを全体的に把握できるようにすることで、日々の業務を簡素化することです。 Databricks Workflows は、Databricks Lakehouse Platformと完全に統合された、データ、アナリティクス、MLのワークロードのための、使いやすく、信頼性の高い、完全に管理されたオーケストレーションソリューションです。直感的なUIを備えているため、すべてのデータ実務者

Databricks Unityカタログのボリュームのパブリックプレビューを発表

July 13, 2023 アドリアナ・イスパス、エイドリアン・イオネスク、ボグダン・ラドゥカヌ、サチン・タクールによる投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link Data and AI Summit 2023では、Databricks Unity Catalogの Volumes を紹介した。この機能により、Unity Catalog内の表形式データとともに、非構造化データ、半構造化データ、構造化データなど、あらゆる非表形式データの発見、管理、処理、系譜の追跡が可能になります。本日、AWS、Azure、GCPで利用可能な Volumes のパブリックプレビューを発表できることを嬉しく思います。このブログでは、表形式以外のデータに関連する一般的なユースケースについて説明し、Unity CatalogのVolumesを使用した主な機能の概要を提供し、Volumesの実用的なアプリケーションを示す作業例を紹介し、Volumesを開始する方法の詳細を提供します。非表形式データのガバナンスとアクセスに関連する一般的なユースケース Databricks Lakehouse...

Data + AI Summit 2023におけるデータエンジニアリングとストリーミングの最新情報

June 30, 2023 オリ・ゾハール、マット・ジョーンズによる投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 今日は木曜日で、2023年データ＋AIサミットからの発表の週を終えたばかりです。今年のサミットのテーマは「ジェネレーションAI」であり、LLM、レイクハウスアーキテクチャ、そしてデータとAIにおけるすべての最新イノベーションを探求するテーマでした。最新のジェネレーティブAIのイノベーションを支えるのは、最新のデータエンジニアリングスタックです。最新のジェネレーティブAIのイノベーションを支えるのは、Delta Lake、Spark、Databricks Lakehouse Platformが提供する最新のデータエンジニアリングスタックです。Databricks Lakehouseは、 Delta Live Tables や Databricks Workflows などのソリューションにより、高度なデータパイプラインの構築とオーケストレーションの課題に取り組むデータエンジニアを支援する高度な機能を提供します。このブログ記事で

集まれ！Legendary Heroes of DATA + AI !! Vol 4　

June 29, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！今回は、Vol 4として、株式会社ナレッジコミュニケーション小山翼様をご紹介します。 —- 以前にご紹介したLegendary Heroes of...

Delta Live TablesとUnity Catalogを使用したガバメント・パイプラインの構築

June 28, 2023 ゾーイ・デュラン、Mukul Murthy、Jon Mio、Yuhong Chen による投稿 in プラットフォームブログ

翻訳: Masahiko Kitamura オリジナル記事： Build governed pipelines with Delta Live Tables and Unity Catalog Delta Live Tables（DLT）のUnity Catalogサポートのパブリックプレビューを発表できることを嬉しく思います。このプレビューにより、どのようなデータチームでも、Delta Live Tablesによって生成されたデータ資産に対して、きめ細かいデータガバナンスポリシーを定義し、実行することができます。私たちは、データエンジニアリングパイプラインにUnity Catalogのパワーをもたらします。パイプラインとDelta Live Tablesは、他のUnity...

レイクハウスのデータ共有とコラボレーションの新機能のご紹介

June 28, 2023 ザヒーラ・ヴァラーニ、Steve Mahoney、ジェイ・バンカリア、ダルシャナ・シヴァクマール、エリカ・エールリ、サチン・タクール、ケリー・アルバーノ、キャシー・ミャオによる投稿 in プラットフォームブログ

翻訳：Saki Kitaoka. - Original Blog Link Databricksは、データ、アナリティクス、AIを横断するデータ共有とコラボレーション( data sharing and collaboration )のための初のオープンソースアプローチを提供します。お客様は、ベンダーに依存することなく、プラットフォーム、クラウド、地域を超えて、ライブデータセット、AIモデル、アプリケーション、ノートブックを共有することができます。プロバイダーは、革新的なデータ製品を提供する機会を拡大することで、イノベーションを加速し、新たな収益源を生み出すことができます。この柔軟性は、 Delta Sharing を Databricks Unity Catalog と統合して、共有データセットへのアクセスを管理、追跡、監査することで、強固なセキュリティとガバナンスとともに実現されます。Lakehouse Collaboration Platformを進化させる新機能を発表できることを嬉しく思います。Datab

Databricks SQLのマテリアライズド・ビューとストリーミング・テーブルの紹介

June 28, 2023 ポール・ラパス、Michael Armbrust、Yannis Papakonstantinou、Nitin Sharma による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link AWSとAzure上の Databricks SQL でマテリアライズド・ビューとストリーミング・テーブルが公開されたことをお知らせできることを嬉しく思います。ストリーミングテーブルは、クラウドストレージやメッセージキューからの増分インジェストを提供します。マテリアライズド・ビューは、新しいデータが到着すると自動的にインクリメンタルに更新されます。これら2つの機能を組み合わせることで、インフラストラクチャを必要としないデータパイプラインが実現し、セットアップが簡単で、新鮮なデータをビジネスに提供することができます。このブログポストでは、アナリストやアナリティクス・エンジニアがデータウェアハウスでデータとアナリティクス・アプリケーションをより効果的に提供するために、これらの新機能がどのように役立つかを探ります。背景データウェアハウスとデータエンジニアリングは、データ駆動型の組織にとって極めて重要である。データウェアハウスはアナリ

Data and AI Summit 2023におけるUnityカタログの最新情報

June 28, 2023 Matei Zaharia、ジョナサン・ケラー、サチン・タクール、Michael Milirud、ポール・ルーム、トッド・グリーンスタイン、Kasey Uhlenhuth、カン・エフェオグル、アドリアナ・イスパス、Cyrielle Simeone、エリカ・エールリ、Amit Kara、Anum Rehman による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link データ管理に不可欠な、説明責任、コンプライアンス、品質、透明性といったガバナンスの基本原則は、今やAIにとっても同様に不可欠なものとなっています。Databricksは Unity Catalog で、クラウドとデータプラットフォームにわたるデータとAIガバナンスのための業界唯一の統合ソリューションをリリースすることで、先駆的なアプローチを取りました。組織はUnity Catalogを使用することで、あらゆるデータプラットフォームやクラウドでファイル、テーブル、MLモデル、ノートブック、ダッシュボードを安全に発見、アクセス、監視、コラボレーションすることができます。私たちは、 Lakehouse Federation 、 Governance for AI 、AIを活用したガバナンス（ Lakehouse Monitoring、Lakehouse Observability...

LakehouseIQのご紹介：あなたのビジネスを独自に理解するAIエンジン

June 28, 2023 Ali Ghodsi、Matei Zaharia、サム・シャー、ウェストン・ハッチンス、Austin Green、エリカ・エールリによる投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、LakehouseIQを発表いたします。LakehouseIQは、お客様のビジネスとデータのユニークなニュアンスを学習し、様々なユースケースで自然言語によるアクセスを可能にするナレッジエンジンです。LakehouseIQは、組織内のどの従業員でも自然言語でデータを検索、理解、照会することができます。LakehouseIQは、お客様のデータ、使用パターン、組織図に関する情報をもとに、専門用語や独自のデータ環境を理解し、素朴なLarge Language Models (LLM)よりもはるかに優れた回答を提供します。ラージ・ランゲージ・モデルはもちろん、データに言語インターフェースをもたらすと約束されており、どのデータ会社もAIアシスタントを追加しているが、現実には、これらのソリューションの多くは企業データでは不十分である。どの企業も独自のデータセット、専門用語、ビジネス上の質問に答えるために必要な内部知識を持っており、質問に