データサイエンス・ML

ページ 4

Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング

March 20, 2023 Sean Owen による投稿 in エンジニアリングのブログ

Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳： junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル（LLM）が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。以前のブログでは、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...

データブリックス上での教師なし外れ値検出

March 19, 2023 Iliya Kostov、ミロシュ・コリック、Michele Caputo による投稿 in エンジニアリングのブログ

Kakapo（ KAH-kə-poh )）は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in エンジニアリングのブログ

Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳： junichi.maruyama 自然言語処理（NLP）の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

データレイクハウスでコンピュータビジョンアプリケーションを実現する

December 17, 2021 パウロ・ボルヘス、Bala Amavasai、ブライアン・スミス（Bryan Smith）による投稿 in エンジニアリングのブログ

Original Blog : Enabling Computer Vision Applications With the Data Lakehouse 翻訳： junichi.maruyama ブログ「 Tackle Unseen Quality, Operations and Safety Challenges with Lakehouse...

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

データレイクハウスによるリアルタイムPOS分析

September 9, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大

Delta Lake で機械学習の課題を解決

July 22, 2021 Marijse van den Berg、Maria Zervou による投稿 in エンジニアリングのブログ

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

AI と機械学習のための大規模な特徴量エンジニアリング

July 16, 2021 Li Yu、Daniel Tomes による投稿 in エンジニアリングのブログ

特徴量エンジニアリングは、機械学習のプロセスの中で最も重要なステップの 1 つであり、多くの時間を要します。データサイエンティストやアナリストは、さまざまな特徴量を組み合わせた実験を重ねてモデルを改善し、ビジネスに有益な情報を提供する BI レポートの作成を目指します。そのような状況下で、データサイエンティストが扱うデータの規模および複雑さが増大し、次のような事柄が課題となっています。特徴量をシンプルかつ一貫性のある方法で定義すること既存の特徴量の識別と再利用既存の特徴量を利用した拡張特徴量やモデルのバージョン管理特徴量定義のライフサイクルの管理特徴量の計算と保存の効率化大規模テーブル（>1000 列）の効率的な計算と永続化意思決定につながるモデルのもとになった特徴量の再現（例：監査や解釈可能性などの実証）このブログでは、大規模データの特徴量を生成する際のデザインパターンについて解説します。また、デザインパターンのリファレンス実装をダウンロード可能な Notebook で提供し、ファースト

ベイズ階層モデルによる COVID-19 疾患パラメタの推定

June 29, 2021 Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

前のブログでは、COVID-19（新型コロナウイルス感染症）疾患のダイナミクスを PyMC3 でモデル化する方法を解説しました。今回は、同じユースケースを使用して、ベイズ階層モデルによる COVID-19 疾患パラメタの推論方法および、プールモデル／非プールモデルと比較した場合のメリットについて、次のような順序で解説します。 1) SIR モデルを常微分方程式（ODE）で生成した合成データに当てはめ、 R 0 などの疾患パラメタを推論する。 2) 上記のフレームワークを実際のデータセット（国ごとの 1 日あたりの感染者数）に適用する。 3) このモデルの限界を指摘し、推論プロセスを改善する方法を考察する。なお、Coursera の専門講座「 Introduction to...