メインコンテンツへジャンプ
<
ページ 3
>

Databricks SQL AI Functionsで大規模に顧客レビューに対して行動する

Original : Actioning Customer Reviews at Scale with Databricks SQL AI Functions 翻訳: junichi.maruyama スーザンは毎朝、メッセージの嵐にさらされ、何から手をつけたらいいのかわからない!スーザンは、世界的な小売企業のカスタマーサクセススペシャリストです。彼女の主な目的は、顧客が問題に遭遇したときに、必ず満足し、個人的なサービスを受けられるようにすることです。 一晩で、ウェブサイト、アプリ、ソーシャルメディアへの投稿、電子メールなど、複数のチャネルで何百ものレビューやフィードバックが寄せられるようになりました。スーザンの1日の始まりは、これらのシステムにそれぞれログインし、同僚がまだ収集していないメッセージを拾い上げることから始まります。次に、これらのメッセージの意味を理解し、対応する必要があるものを特定し、お客さまへの回答を作成する必要があります。なぜなら、メッセージの形式はさまざまで、お客さまはそれぞれ独自のスタイル

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳: junichi.maruyama 背景と動機 ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

機械学習を向上させる合成データ

April 11, 2023 Sean Owen による投稿 in エンジニアリングのブログ
Original Blog : Synthetic Data for Better Machine Learning 翻訳: junichi.maruyama この1年で最も話題になった、 ChatGPT や DALL-E のような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア( diffusion models 、 generative adversarial networks 、GAN)は、遊んでみると楽しく、恐ろしいとさえ感じます。...

機械学習で母親を助ける:CareSourceはハイリスク妊娠のヘルスケア改善のためにどのようにMLOpsを活用したか

このブログ投稿はCareSourceのRuss Scoville (Vice President of Enterprise Data Services)、Arpit Gupta (Director of Predictive Analytics and Data Science)、and Alvaro Aleman (Senior Data Scientist) との共同によるものです。 Original...

Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング

March 20, 2023 Sean Owen による投稿 in エンジニアリングのブログ
Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳: junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル(LLM)が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。 以前のブログ では、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...

データブリックス上での教師なし外れ値検出

Kakapo( KAH-kə-poh ))は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in エンジニアリングのブログ
Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳: junichi.maruyama 自然言語処理(NLP)の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で

集まれ!Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 [email protected] による投稿 in Databricks ブログ
日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか? Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います!! さて、最終回のVol.3 では、 日本マイクロソフト 中里 浩...

Apache Spark™ 3.2 の概要

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。 月間のダウンロード数は 2,000万 に達し、対前年比では 2 倍の成長率を示しています。Spark...