エンジニアリングのブログ

ページ 11

データレイクハウスと機械学習の融合による再現性の強化

April 26, 2021 Mary Grace Moesta、Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

機械学習が組織やプロジェクトにこれまでにない価値をもたらすことが証明されています。機械学習には、イノベーションの加速、パーソナライゼーション、需要予測など、さまざまなユースケースがあります。しかし、課題もあります。それは、使用されるデータのソースが無数に存在し、ツールや依存関係のエコシステムも絶え間なく変化することから、ソリューションは流動的かつ、元の状態への再現性が低くなってしまうことです。機械学習で構築するモデルが常に正しいとは限りません。そこで、モデルの精度を高めるために実験を繰り返します。その実験の信頼性を高めるには、モデルと結果の再現性を高める必要があります。再現性を高める機械学習実験においては、少なくとも次の項目の再現が期待されます。データのトレーニング／検証／テストコンピューティング環境モデル（関連するハイパーパラメータなど）コードしかし、機械学習での再現性の確保は、実際には非常に難しいタスクです。例えば、モデルのトレーニングに使用されたデータと同一のデータにアクセスする必要があります

Community Editionで始めるDatabricks

April 22, 2021 Masahiko Kitamura による投稿 in チュートリアル

Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみワークスペースに追加できるユーザー数は最大3名までクラスターのリージョンはus-westのみ使用できない機能ジョブのスケジュール

Databricksで PyTorch を習得する 7 つの理由

April 14, 2021 Jules Damji による投稿 in エンジニアリングのブログ

新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わかりやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...

地理空間クラスタリングによる金融不正の識別

April 13, 2021 アントワーヌ・アメンド（Antoine Amend）による投稿 in エンジニアリングのブログ

本ブログで参照する Notebook にスキップできます。 For most financial service institutions (FSI), fraud prevention often implies a complex ecosystem made of various components –- a mixture...

Koalas（PySpark）がDask よりも高速な理由 – SQL クエリ最適化など

April 7, 2021 Xinrong Meng、Hyukjin Kwon による投稿 in エンジニアリングのブログ

Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...

ソリューションアクセラレータ：通信業界のための顧客離脱の予測

February 24, 2021 ダン・モリス、Hector Leano、Steve Sobel による投稿 in エンジニアリングのブログ

本ブログで参照する Notebook にスキップできます。米通信大手 T-Mobile によるキャリアフリーの導入は、単なるマーケティングキャンペーンにとどまらず、米国通信市場のダイナミクスを根本的に変えるきっかけとなりました。かつての通信業界は、安定した公益事業のように成長し、携帯電話の本体料金を無料にするための通話プランによって、利用者を 2 年間の契約で縛ってきました。しかし、次の 3 つの要因により、通信業界のビジネスの本質が変わることになります。電話番号の継続使用：2004 年以降、キャリアを変更しても電話番号は継続使用できるようになり、利用者がプロバイダを変更する際の最大の障壁の 1 つが解決しました。通話プラン契約の廃止：携帯電話本体の価格の上昇により、各キャリアは本体購入料金の補助金を中止し、通話プランの契約が廃止されました。競合企業：T-Mobileが、データプランの価格設定の積極的な変更と広告費への増額投資をおこない、市場シェアを拡大。これまで2強のシェアだった市場において、強力な第3

レイクハウスによるデータレイク・データウェアハウスの統合

February 4, 2021 Ryan Boyd による投稿 in エンジニアリングのブログ

このブログは、CIDR レポート「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」（レイクハウス：データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム）の著者の許可を得て、レポートの内容をベースに執筆したブログシリーズの第一弾です。データアナリスト、データサイエンティスト、AI のスペシャリストたちは、高品質で信頼性の高い、最新のデータが不足していることにストレスを感じています。ストレスの一部は、フォーチュン 500 企業の大半で現在使用されている 2 層データアーキテクチャ（データレイクとデータウェアハウス）の弱点に起因しています。一方で、データの信頼性とリアルタイム性を両立する...

分散型 ML の生産性を高める Ray と MLflow の統合

February 3, 2021 Amog Kamsetty、Archit Kulkarni による投稿 in エンジニアリングのブログ

This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post...

Databricks の MLflow モデルレジストリと CI/CD 機能で MLOps を簡素化

November 19, 2020 スー・アン・ホン、Ankit Mathur、Jules Damji、マニ・パルケによる投稿 in エンジニアリングのブログ

MLflow は、実験のメトリクスやパラメータ、アーティファクトの追跡、モデルをバッチまたはリアルタイムでサービングシステムに展開する機能を提供し、組織における機械学習（ML）ライフサイクルの管理を支援します。 MLflow モデルレジストリは、実験段階からデプロイメントへのハブとして、モデル展開のライフサイクルを管理する中央リポジトリを提供します。 MLOps 、機械学習ライフサイクル管理において、継続的インテグレーションと継続的デプロイメント（CI/CD）のプロセスは極めて重要です。このブログでは、全ての Databricks ユーザーが利用できるタグやコメント、Webhook 通知機能など、CI/CD プロセスを円滑にする Databricks の MLflow モデルレジストリの新機能をご紹介します。 AWS 、 Azure との連携についてはそれぞれのページをご覧ください。なお、このブログでは、Data+AI サミット 2020 で一般提供を発表した...

データサイエンティスト向け：Databricks Notebook を使いこなす 10 のヒント

October 29, 2020 Jules Damji による投稿 in エンジニアリングのブログ

「最高のアイディアにはシンプルなものがある」という格言があるように、たとえ小さくても大きな違いを生むことがあります。今年行った数回のリリースの過程で、Databricks をシンプルにするために、大きな違いにつながる小さな機能を Notebook に追加しました。このブログと付随する Notebook では、簡単なマジックコマンドを紹介し、データサイエンティストの開発時間を短縮し、開発者のエクスペリエンスを向上させるために Notebook に追加したユーザーインターフェースの機能を解説します。強化された機能には、次のものが含まれます。 %pip install %conda env export および update %matplotlib inline %load_ext tensorboard および...