メインコンテンツへジャンプ
<
ページ 31
>

LIMIT:インストラクション・チューニングは「より少ないこと」が重要

汎用的な質問応答用の大規模言語モデルをどのようにファインチューニングすればよいのでしょうか? 興味深いアプローチの1つは、少数の高品質なサンプルに対する教師ありのファインチューニングです。 最近の LIMA("Less Is More for Alignment" ) 研究では、1,000の多様で質の高い質問と回答のペアでトレーニングするだけで、汎用的な指示の追従が達成できると大胆に主張しました。同時期の他のいくつかの研究でも、この種の「スタイルアライメント」のファインチューニングは、少数の質の高いサンプルで達成できると主張しています(例えば 、Alpaca、 Vicuna 、 Alpagasus 、および Tülü 、しかし、 The False Promise of Imitating Proprietary...

米空軍ハッカソン:大規模言語モデルが米空軍の飛行試験にどのような革命をもたらすか

[配布に関する声明 A. 公開を承認;配布は無制限 412TW-PA-24004] 本書は、米国空軍、国防総省、または米国政府の公式な方針または立場を反映するものではありません。 米空軍(USAF)ハッカソンとは? 空軍テストセンター(AFTC)データハッカソンは、AFTCのテスト専門家が1週間にわたって集まり、新しい技術を駆使して空軍の新たな問題に取り組むコンソーシアムです。 今回の第5回ハッカソンでは、大規模言語モデル(LLM)に焦点を当て、AFTCの3つの拠点に44名の参加者が集まり、また遠隔地からの参加者もありました。 OpenAIのChatGPTのようなLLMは、急速に技術分野で注目を集めるようになり、コードの初期化や文章コンテンツの下書きにデジタルアシスタントを利用するというアイデアが主流になりつつあります。 このような利点があるにもかかわらず、空軍では、機密情報を領域外に暴露する可能性があるため、商用モデルの短期的な使用には制約があります。 機能するLLMを空軍の境界内に配備したいという意欲はありま

産業界と政府機関を通じて、責任あるAI開発へのコミットメントをさらに強化

February 8, 2024 Scott Starbird による投稿 in
Databricksでは、革新的なデータとAI製品を構築してきた長年の歴史を通じて、責任ある開発の原則を堅持してきました。 私たちは青空のように広がる可能性を秘めた研究(blue-sky research)とオープンソースの革新に取り組んでいます。これは私たちの文化の一部であり、当社の学術的なルーツに由来するものです。 この遺産を基に、Databricksは最近、イノベーションを促進し、安全で信頼できるAIの使用を提唱するいくつかの業界および政府の取り組みに参加しました。 当社のデータインテリジェンスプラットフォームからの洞察を研究に提供したり、他の業界関係者と協力してAIに関する政策立案者を教育したりするなど、DatabricksはAIの進歩を加速し、安全性を向上させ、セキュリティを強化し、信頼を活用するためのイニシアチブの一翼を担っていることを誇りに思っています。 以下は、私たちが参加または協力しているグループの一部です: AIアライアンス AIアライアンスは、オープンイノベーションに根ざした安全で責任あるA

リンク不可能なものを繋げる:Databricks ARCによるシンプルで自動化されたスケーラブルなデータリンク

2023年4月にDatabricks ARCの リリースを発表 し、単一テーブル内のデータをシンプルに自動リンクできるようになりました。 本日、オープンでスケーラブル、かつシンプルなフレームワークを使用して、2つの異なるテーブル間のリンクを検索できる機能強化を発表しました。 英国司法省が開発し、ARCのリンクエンジンとして機能する Splink は、強力でオープンで説明可能なエンティティ解決パッケージを提供するために存在します。 2つの異なるテーブルの間に共通のフィールドがあり、そのフィールドがテーブル間の直接のリンクとなります。 同じNIナンバー(英国の国民保険番号)を持つ2つの記録は同一人物であるはずです。 しかし、このような共通のフィールドがないデータをどのようにリンクするのでしょうか? あるいは、データの質が悪い場合ですか? NIナンバーが同じだからといって、誰かが書き間違えたとは限りません。 このような場合、確率的データリンク、つまりファジーマッチングの領域に入ります。 下の図は、2つのテーブルをリンク

Welldoc®とDatabricks:カスタマイズされた介入のための改善されたデータで心臓代謝ケアを強化

February 2, 2024 アナンド・アイヤーアビ・クンバラ による投稿 in
このブログは、Welldocのチーフ・アナリティクス・オフィサー、アナンド・アイヤー(博士、MBA)およびデータ・サイエンス・マネージャー、アビ・クンバラとの共同執筆です。 循環代謝ケアとデジタルヘルスが交差することで、現代のヘルスケアは一変します。 心代謝性疾患は、長期にわたる持続的な経過をたどることが多く、継続的なケアが必要であり、医療システムの経済的負担に大きく寄与しています。 肥満、高血圧、糖尿病、心臓病など、これらの病態はしばしば併存し、相乗的に深刻な健康合併症のリスクを高めます。 CDCによると、全米の医療費4兆1,000億ドルの90%は、慢性疾患や精神疾患を抱える人々のためのものです。 デジタルヘルスソリューションは、従来のヘルスケアパラダイムを再構築し、心代謝系疾患のプロアクティブでパーソナライズされた管理における極めて重要なツールとして浮上しています。 ウェアラブルデバイスと接続された医療機器により、バイタルサイン、活動レベル、その他の関連する健康データの継続的な追跡が可能になります。 これらの

Databricksを活用したOLMoが登場

February 1, 2024 Jonathan Frankle による投稿 in
私はDatabricksにおけるニューラルネットワークのチーフサイエンティストとして、誰もが自分のデータを使ってAIモデルを構築し、微調整(ファインチューニング)できるようにするという目標に向かって研究チームを率いています。 2020年、私は機械学習の研究者や有識者からなる小さなグループの一員として、MosaicMLを設立しました。 私たちは常に、知識を共有し、コミュニティにツールを提供することで、開かれた科学的探究を支援することに尽力してきました。 同じアカデミックなルーツを持つDatabricksに加わって以来、私たちはそのコミットメントをさらに深めています。 その精神に基づき、私たちは非営利団体 Allen Institute for AI(AI2 )の科学者たちと 、 技術的な知識の共有から 今日の大きな発表 に至るまで、あらゆる面で協力してきました: OLMoです。私の意見では、AI2は世界最高のNLP研究所のひとつであり、非営利団体ならではの自由奔放な創造性、誠実さへのコミットメント、リソースを駆使し

マテリアライズド・ビューによるLakeviewダッシュボードの高速化

このブログ記事では、Databricks SQL マテリアライズド・ビュー をLakeviewダッシュボードで使用して、ビジネスに新鮮なデータと洞察を提供する方法を紹介します。 先日、 Databricks Data Intelligence Platform におけるLakeviewダッシュボードのパブリックプレビューを 発表 しました。Lakeview のダッシュボードは、Databricksの顧客のためのビジュアライゼーションとレポーティング体験の作成において、大きな前進を意味します。 視覚化が大幅に改善され、共有や配布に最適化されたシンプルなデザイン体験を提供します。 Lakeview ダッシュボードは Databricks SQL (DBSQL) データウェアハウス上で実行されます。 DBSQLを使用すると、レガシーなクラウドデータウェアハウスの数分の一のコストで、選択したツールですべてのSQLおよびBIアプリケーションを大規模に実行できます。 マテリアライズド・ビューは、ビジネスに新鮮なデータを提供す

M Scienceはオルタナティブデータを実用的な洞察に変える

機関投資家が利用できるデータセットは何千とあり、それぞれのデータセットが投資の意思決定において重要な洞察を解き明かすと期待されています。 何千ものデータセットと、それらの多くの潜在的なアプリケーション全体にわたって、多くの異なるスキーマ、バイアス、長所、欠点があります。 これらのデータセットを選択し、テストし、プロダクション化することは重要な仕事です。 最終的に投資家が求めているのは、データそのものではなく、データから得られる洞察です。 M Science社の使命は、オルタナティブ(代替)データに基づき、投資家の皆様に実用的な洞察を提供することです。 利用可能なデータを検討し、多くのデータをテストして有効性を判断し、企業のKPIを最も予測できるものを選択します。 このように厳選されたオルタナティブデータを使用し、書面調査、ダッシュボード、データフィードを通じてデータやデータ由来の製品を提供しています。 私たちは20年以上前、純粋にデータ駆動型の最初のリサーチプロバイダーとして、この使命を開始しました。 2000年

Databricks SQL Year in Review (Part 2):SQLプログラミング機能に焦点をおいて

January 31, 2024 Serge Rielau による投稿 in
Databricksの サーバーレス・データウェアハウス、Databricks SQLの2023年の製品進化を紹介するブログシリーズへようこそ。 このパート2では、この1年間に提供されたSQLプログラミングの新機能の数々をご紹介します。 当然のことながら、すべてのSQL開発者は、より生産性を高め、より複雑なシナリオに簡単に取り組みたいと考えています。 これはすべてDatabricksのデータインテリジェンスプラットフォームの一部であり、 データウェアハウスと データレイクの長所を組み合わせたレイクハウスアーキテクチャに基づいて構築されています。 それでは、2023年のSQLプログラミングの目玉機能をご紹介します: ラテラル カラム エイリアス対応 コーヒーが体に良くないなら、なぜみんな飲むのですか? ラテラルカラムサポートがそうです。 SQLの原則には反しますが、この機能を使えば、セレクトリスト内のSQL式の結果を、同じセレクトリスト内の次の式で参照することができるので、確かに便利です。 あなたは振り返り、SQL

NVIDIA H100 Tensor Core GPU上でのクオンタイズ(量子化)LLMの処理

量子化(クオンタイズ)とは、機械学習モデルをより小さく、より高速にするためのテクニックです。Llama2-70B-Chatを量子化し、1秒間に2.2倍のトークンを生成する同等の品質のモデルを作成しました。 言語モデルが大きくなればなるほど、クエリにかかる時間は遅くなり(コストも高くなり)、GPUはより多くのパラメータをメモリからロードし、より多くの計算を実行しなければなりません。私たちのチームは、 LLMのパフォーマンスを 最適化するために数多くのテクニックを開発し、採用してきました。このブログポストでは、メモリフットプリントを減らし、より高速に実行するためにモデルの数値精度を下げる一般的なテクニックである量子化について説明します。Llama2-70B-ChatのようなLLMに量子化を適用すると、完全な16ビット精度で実行した場合と比較して、1秒あたり2.2倍のトークンを生成するモデルになります。重要なことは、モデルの品質が維持されていることを保証するために、量子化されたモデルを Gauntletモデル評価スイー