エンジニアリングのブログ

ページ 9

Hugging Faceトランスフォーマーのパイプラインを使ったNLPを始めよう

February 5, 2023 Paul Ogilvie による投稿 in エンジニアリングのブログ

Original Blog : Getting started with NLP using Hugging Face transformers pipelines 翻訳： junichi.maruyama 自然言語処理（NLP）の進歩は、企業がテキストデータから価値を引き出すための前例のない機会を解き放ちました。自然言語処理は、テキストの要約、人や場所などの固有名詞の認識、感情分類、テキスト分類、翻訳、質問応答など、幅広い用途に使用できます。多くの場合、大規模なテキストデータセットで事前に訓練された機械学習モデルから、高品質の結果を得ることができます。これらの事前学習済みモデルの多くは、オープンソースで公開されており、無料で使用することができます。 Hugging Face は、これらのモデルの素晴らしいソースの一つであり、彼らの Transformers ライブラリは、モデルを適用し、また自分のデータにも適応させるための使いやすいツールです。また、これらのモデルを自分のデータに合わせて微調整をすることも可能で

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 31, 2023 [email protected] による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

PySparkでのメモリプロファイリング

November 30, 2022 Xinrong Meng、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Original Blog : Memory Profiling in PySpark 翻訳： junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます（詳細を見る）しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

データレイクハウスでコンピュータビジョンアプリケーションを実現する

December 17, 2021 パウロ・ボルヘス、Bala Amavasai、ブライアン・スミス（Bryan Smith）による投稿 in エンジニアリングのブログ

Original Blog : Enabling Computer Vision Applications With the Data Lakehouse 翻訳： junichi.maruyama ブログ「 Tackle Unseen Quality, Operations and Safety Challenges with Lakehouse...

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法

October 11, 2021 ミロシュ・コリック、ロバート・ウィフィン、Pritesh Patel、Charis Doidge、Steve Kingston、Linda Sheard による投稿 in エンジニアリングのブログ

この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。このブログでは、オードナンス・サーベイ（Ordnance Survey、英国陸地測量部）、データブリックス、Microsoft が共同で取り組む British National Grid（BNG）を用いた空間分割について解説します。オードナンス・サーベイは、公共部門地理空間協定（Public Sector Geospatial...

時系列予測ライブラリ Prophet と Spark との連携

October 7, 2021 Masahiko Kitamura による投稿 in ソリューションアクセラレータ

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

Terraform による Databricks ワークスペースの環境構築（AWS 編）

September 29, 2021 Masahiko Kitamura による投稿 in チュートリアル

Databricks ワークスペースは、1 つの独立した Databricks 環境を提供します。そのため、要件によっては複数のワークスペースを同時に作成・運用するケースもあります。こうした状況では、Databricks ワークスペースを Code として管理（IaC）し、自動化することで運用がスムーズになります。 Databricks では、運用現場で求められる機能をツールとして提供する Labs Project の一環で、 Databricks Terraform Provider を公開しています。このドキュメントでは、Terraform を用いて AWS 上に...

臨床データによる腫瘍学の知見抽出に NLP を活用

September 22, 2021 Amir Kermany、Moritz Steller、David Talby、Michael Sanky による投稿 in エンジニアリングのブログ

このブログで参照しているソリューションアクセラレータのノートブックは、オンラインでご参照いただくか、ノートブックをダウンロードしてお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。米国における死亡原因および疾病原因の第 1 位は悪性腫瘍（がん）です。その数は驚異的で、今年、米国では新たに診断されるがん患者は約 200 万人になると予想されています。また、米国における医療費は、悪性腫瘍（がん）に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によっておよそ...

データレイクハウスによるリアルタイムPOS分析

September 9, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大