エンジニアリングのブログ

ページ 8

Databricks ❤️ Hugging Face

April 26, 2023 Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、マディ・ドーソン、Lu Wang、Xiangrui Meng、ニコラス・ペラエスによる投稿 in オープンソース

Original Blog : Databricks ❤️ Hugging Face 翻訳： junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ＆AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。「Databricksがモデルやデータセットをコミュニティに公開することは素晴らしいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

April 25, 2023 Uday Satapathy、ディパンカル・クシャリ、Akash Jaiswal による投稿 in エンジニアリングのブログ

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳： junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ

Databricks上のPyTorch - Spark PyTorch Distributor の紹介

April 20, 2023 ブライアン・ロー、Rithwik Ediga Lakhamsani による投稿 in エンジニアリングのブログ

Original Blog : PyTorch on Databricks - Introducing the Spark PyTorch Distributor 翻訳： junichi.maruyama 背景と動機ディープラーニングのアルゴリズムは複雑で、トレーニングに時間がかかりますが、これらのアルゴリズムが実現する価値のために、研究室から生産現場へと急速に移行しつつあります。学習済みのモデルを使用して微調整する場合でも、ネットワークをゼロから構築する場合でも、学習時のメモリと計算負荷はすぐにボトルネックとなります。このような制約を克服するための手段として、一般的な最初の防御策は、分散学習を活用することです。Tensorflowには spark-tensorflow-distributor がありますが、PyTorchには同等のものがありませんでした。 Apache Sparkクラスタでの分散PyTorchトレーニングを簡素化するTorchDistributorライブラリをようやく発表することができました。

Spark Connect がApache Spark 3.4で利用可能になりました

April 18, 2023 アラン・フォルティング、Hyukjin Kwon、Xiao Li、ヘルマン・ファン・ヘーベル、ステファニア・レオーネ、マーティン・グルンド、Reynold Xin（レイノルド・シン）、Kris Mo による投稿 in エンジニアリングのブログ

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳： junichi.maruyama 昨年、Data and AI SummitでSpark Connectが紹介されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...

Apache Spark™ 3.4 for Databricks Runtime 13.0の紹介

April 13, 2023 Xinrong Meng、ダニエル・テネドリオ、マーティン・グルンド、アラン・フォルティング、Hyukjin Kwon、ヘルマン・ファン・ヘーベル、Wenchen Fan、Ying Xiong、イム・ジョンテク、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Original Blog : Introducing Apache Spark™ 3.4 for Databricks Runtime 13.0 　 (翻訳： junichi.maruyama ) 本日、 Databricks Runtime 13.0 の一部として、Databricks上で Apache Spark™ 3.4...

機械学習を向上させる合成データ

April 11, 2023 Sean Owen による投稿 in エンジニアリングのブログ

Original Blog : Synthetic Data for Better Machine Learning 翻訳： junichi.maruyama この1年で最も話題になった、 ChatGPT や DALL-E のような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア（ diffusion models 、 generative adversarial networks 、GAN）は、遊んでみると楽しく、恐ろしいとさえ感じます。...

機械学習で母親を助ける：CareSourceはハイリスク妊娠のヘルスケア改善のためにどのようにMLOpsを活用したか

April 4, 2023 Chengyin Eng、Russ Scoville、Arpit Gupta、Alvaro Aleman による投稿 in エンジニアリングのブログ

このブログ投稿はCareSourceのRuss Scoville (Vice President of Enterprise Data Services)、Arpit Gupta (Director of Predictive Analytics and Data Science)、and Alvaro Aleman (Senior Data Scientist) との共同によるものです。 Original...

Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング

March 20, 2023 Sean Owen による投稿 in エンジニアリングのブログ

Original Blog : Fine-Tuning Large Language Models with Hugging Face and DeepSpeed 翻訳： junichi.maruyama ChatGPTのセンセーショナルなリリースを受け、大規模言語モデル（LLM）が現在脚光を浴びています。多くの人が、このようなモデルを自分のアプリケーションでどのように活用できるかを考えています。しかし、これは変換器ベースのモデルのいくつかの進歩の一つに過ぎず、他の多くのモデルは、チャットだけでなく、翻訳、分類、要約などのタスクでオープンかつ容易に利用できます。以前のブログでは、人気のある Hugging Face トランスフォーマーライブラリを通じて、Databricks上でこれらのモデルにアクセスするための基本的な方法を説明しました。 T5 や BERT...

データブリックス上での教師なし外れ値検出

March 19, 2023 Iliya Kostov、ミロシュ・コリック、Michele Caputo による投稿 in エンジニアリングのブログ

Kakapo（ KAH-kə-poh )）は、Databricks上でスケールアップした外れ値検出のための標準APIセットを実装しています。これは外れ値検出アルゴリズムの膨大な PyOD ライブラリと、モデルの追跡とパッケージングのための MLFlow 、広大で複雑かつ異質な探索空間の探索のための Hyperopt との統合を提供します。 The views expressed in this article are privately held by the author and cannot...

DatabricksとApache Spark ClustersにおけるRayのサポートを発表

February 28, 2023 ウェイチェン・シュー、ベン・ウィルソン、Jiajun Yao、Zhe Zhang、Eric Liang、Xiangrui Meng、コーリー・ズマールによる投稿 in エンジニアリングのブログ

Original : Announcing Ray support on Databricks and Apache Spark Clusters 翻訳： junichi.maruyama Ray は、スケーラブルなAIおよびPythonワークロードを実行するための著名なコンピュートフレームワークで、さまざまな分散機械学習ツール、大規模なハイパーパラメータチューニング機能、強化学習アルゴリズム、モデル提供などを提供します。同様に、Apache Spark™は、 Spark MLlib や、 XGBoost , TensorFlow...