メインコンテンツへジャンプ
<
ページ 10
>

Databricksで PyTorch を習得する 7 つの理由

April 14, 2021 Jules Damji による投稿 in エンジニアリングのブログ
新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。 学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わかりやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...

Koalas(PySpark)がDask よりも高速な理由 – SQL クエリ最適化など

Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...

ソリューションアクセラレータ: 通信業界のための顧客離脱の予測

本ブログで参照する Notebook にスキップできます。 米通信大手 T-Mobile によるキャリアフリーの導入は、単なるマーケティングキャンペーンにとどまらず、米国通信市場のダイナミクスを根本的に変えるきっかけとなりました。かつての通信業界は、安定した公益事業のように成長し、携帯電話の本体料金を無料にするための通話プランによって、利用者を 2 年間の契約で縛ってきました。しかし、次の 3 つの要因により、通信業界のビジネスの本質が変わることになります。 電話番号の継続使用:2004 年以降、キャリアを変更しても電話番号は継続使用できるようになり、利用者がプロバイダを変更する際の最大の障壁の 1 つが解決しました。 通話プラン契約の廃止:携帯電話本体の価格の上昇により、各キャリアは本体購入料金の補助金を中止し、通話プランの契約が廃止されました。 競合企業:T-Mobileが、データプランの価格設定の積極的な変更と広告費への増額投資をおこない、市場シェアを拡大。これまで2強のシェアだった市場において、強力な第3

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in エンジニアリングのブログ
このブログは、CIDR レポート 「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」 (レイクハウス:データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム)の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。 データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ(データレイクとデータウェアハウス)の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習(ML)ライフサイクルの管理を支援します。 MLflow モデルレジストリ は、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント(CI/CD)のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。 なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...

データサイエンティスト向け:Databricks Notebook を使いこなす 10 のヒント

October 29, 2020 Jules Damji による投稿 in エンジニアリングのブログ
「最高のアイディアにはシンプルなものがある」という格言があるように、たとえ小さくても大きな違いを生むことがあります。今年行った数回のリリースの過程で、Databricks をシンプルにするために、大きな違いにつながる小さな機能を Notebook に追加しました。 このブログと 付随する Notebook では、簡単なマジックコマンドを紹介し、データサイエンティストの開発時間を短縮し、開発者のエクスペリエンスを向上させるために Notebook に追加したユーザーインターフェースの機能を解説します。 強化された機能には、次のものが含まれます。 %pip install %conda env export および update %matplotlib inline %load_ext tensorboard および...

リアルワールドデータ分析によるハイリスク患者の検知

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。 医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の 予防 が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、 欧州 や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、 神経疾患の原因となる既知の遺伝的リスク などの生物学的リ

データ分析と AI の活用で COVID-19 影響下の公衆衛生監視を改善

August 28, 2020 Mike Maxwell による投稿 in エンジニアリングのブログ
Databricks における公共セクター(州・地方政府)部門のリーダーである私は、米国の政府による新型コロナウイルスと COVID-19 の危機への取り組みを身近に見る機会があります。この危機に立ち向かい、命を救うために業務遂行している彼らの姿勢には常に敬服させられます。 暗いニュースが続く中、COVID-19 に関して公衆衛生機関がもたらした重要な 新たな成果の報告 もあります。米国疾病予防管理センター(CDC)をはじめとする公衆衛生部門による優れた活動は、あまりニュースの見出しになることはありませんが、実際は極めて素晴らしい成果を生み出しています。 私たちと同じように、地方自治体や州政府も、状況が変化するたびに一歩ずつ理解を深めています。早期に感染が発生した国で成功した COVID-19 対応プログラムを参考にし、公衆衛生機関はまず、重要なデータソースとして接触者の追跡の必要性を認識し、接触者追跡プログラムの実装を急ぎました。接触者追跡プログラムを導入したことで、膨大なデータが利用可能になりました。 世界的