メインコンテンツへジャンプ
<
ページ 36
>

Databricks SQL Year in Review(Part1):AIに最適化されたパフォーマンスとサーバーレス・コンピューティング

本記事は、2023年の Databricks SQLの 主な進歩分野を振り返るブログ・シリーズのパート1で、最初の記事ではパフォーマンスに焦点を当てています。 データウェアハウスのパフォーマンスは、特に計算時間がコストを左右する現代のSaaSの世界では、より応答性の高いユーザーエクスペリエンスと優れた価格/パフォーマンスを実現するために重要です。 私たちは、Databricks SQLのパフォーマンスを向上させるとともに、AIを活用することで手作業によるチューニングの必要性を低減させるために努力してきました。 AIに最適化されたパフォーマンス 最新のデータウェアハウスは、新しいデータ、より多くのユーザー、または新しいユースケースが入ってくるたびに、知識豊富な管理者が継続的に手動で調整する必要があるワークロード固有の構成で満たされています。 これらの"ノブ" は、データの物理的な保存方法から、コンピ ュータの利用方法やスケーリング方法まで多岐にわたります。 この1年間、私たちはDatabricksの データインテリ

小売業のためのジェネレーティブAI:スキル開発を通じてトップラインの成長を促進

COVID以来、"大辞任" について、 世界経済フォーラムによる 詳細な分析を含め、数え切れないほどの記事が書かれています。 この調査でわかった重要なことのひとつは、自発的に仕事を辞める人をこれ以上増やさないためには、企業は従業員を職場に引き込む努力をしなければならないということです。 結局のところ、従業員はどの企業にとっても最も貴重な資産であり、従業員が退職すると、同僚や企業全体に打撃を与えます。 しかし、従業員のエンゲージメントを調査するとなると、中核となるリソースとしてデータに頼る企業はほとんどありません。 この5年間で、アナリティクスや機械学習を利用して、顧客やサプライチェーンに関するより深く広範な洞察を得る経営者は増えましたが、従業員に関するデータはまだ不足していることが多いのです。 その代わりに、人事担当者は採用やコーチング、育成に重点を置く傾向があり、意思決定のためにデータの代わりに"直感" を使う必要があります。 ビジネス界で最も秘匿されている秘密の1つは、人的資本データを解き放つことが成長とコス

通信業界向けデータインテリジェンスプラットフォームのご紹介

January 16, 2024 ブライアン・サフトラーSteve Sobel による投稿 in
通信業界は、100年以上の歴史の中で最も大きな成長(と変化)の時期にあります。 世界的なトラフィックの激増、顧客からのサービス向上への期待、より多くのネットワーク機器の必要性により、ネットワーク管理はより複雑で高コストになっています。 さらに、顧客がより質の高いサービスやより良い顧客体験(CX)を求めるようになると、ニーズが満たされない場合に解約する可能性が高くなるというデータもあります。 その結果、通信サービスプロバイダー(CSP)は、サービスと運用コストの削減、優れた顧客体験の開発と維持、収益拡大の機会の特定、安全で信頼性の高いサービスによる規模の拡大を支援するために、データとAIのユースケースに注目しています。 並大抵のことではありません。 このことを示すには、5G、IoT、エッジコンピューティング、AIなど、ビッグデータの新時代を迎えたデジタル技術の爆発的な普及を見れば明らかです。 例えば、 シスコのVNI(Visual Networking Index)グローバルモバイルデータトラフィック予測 によると

SIEM検知ルールの進化:シンプルから洗練への旅

サイバー脅威とそれに対抗するツールはより洗練されたものになっています。 SIEMは20年以上の歴史があり、その間に大きく進化してきました。 当初はパターンマッチングと閾値ベースのルールに依存していたSIEMは、より高度なサイバー脅威に対処するために分析能力を向上させました。 「検知成熟度曲線」と呼ばれるこの進化は、セキュリティ運用が単純な警告システムから脅威の予測分析が可能な高度なメカニズムへと移行したことを示しています。 このような進歩にもかかわらず、最新のSIEMは、大規模なデータセットや長期的な傾向分析、機械学習による検出のためのスケーリングという課題に直面しており、複雑化する脅威要因の検出と対応に対する組織の能力が問われています。 そこでDatabricksがサイバーセキュリティチームを支援します。 Apache Spark™、MLflow、およびDeltaテーブルを搭載したDatabricksの統合アナリティクスは、企業の最新のビッグデータと機械学習のニーズを満たすために、コスト効率よく拡張できます。

製造業における洞察:低レイテンシーのセンサーデータでのストリーミング積分の計算

January 10, 2024 TJ Cycyotaバラト・ペリヤサミー による投稿 in
データエンジニアは、複雑でノイズの多いデータから洞察を引き出すために、数学と統計学に頼っています。 最も重要な領域は微積分です。微積分では、積分(最も一般的には曲線下の面積を計算すること)が得られます。 これは、レートを表す多くのデータを統合して有用な測定値を生成できるため、エンジニアにとって便利です。 例えば ポイント・イン・タイムのセンサーの測定値は、一度統合されると、 時間加重平均 を生成することができます。 車両速度の積分は、 移動距離 の計算に使用できます。 データ転送量 は、ネットワーク転送速度を統合したものです。 もちろん、ほとんどの生徒はある時点で積分の計算方法を学びますし、計算自体もバッチで静的なデータでは簡単です。 しかし、機器のパフォーマンスしきい値に基づくアラートの設定や、ロジスティクスのユースケースにおける異常の検出など、ビジネス価値を実現するために低レイテンシーで増分的な積分計算を必要とする一般的なエンジニアリングパターンがあります。 ポイント・イン・タイム測定: 計算に使用される積分

DatabricksおよびApache Spark™上でのRayオートスケーリングのサポートを発表

Ray はオープンソースの統合コンピュートフレームワークで、分散環境におけるAIとPythonワークロードのスケーリングを簡素化します。 Databricks上でのRay の実行サポートを導入して以来、予測や深層強化学習からLLMの微調整に至るまで、数多くのお客様が機械学習のユースケースの導入に成功しています。 Rayバージョン2.8.0 のリリースに伴い、Ray on Databricksのオートスケーリングサポートが追加されました。 オートスケーリング は、変動する需要に対してリソースを動的に調整することができるため、不可欠です。 処理のニーズは時間と共に大きく変化する可能性があるため、オートスケーリングにより、最適なパフォーマンスとコスト効率を保証し、手動介入を必要とせずに計算能力と費用のバランスを維持するのに役立ちます。 Databricks上のRayオートスケーリングは、必要に応じてワーカーノードを追加または削除することができ、Sparkフレームワークを活用して分散コンピューティング環境におけるスケーラ

Databricks アシスタントを最大限に活用するための5つのヒント

Databricks アシスタントは、Databricksノートブック、SQLエディタ、ファイルエディタで利用可能な、コンテキストを意識したAIアシスタントで、Databricksの生産性を向上させます: SQL/Pythonコードの生成 オートコンプリートコードまたはクエリ コードの変換と最適化 コードやクエリの説明 エラーの修正とコードのデバッグ アクセス可能なテーブルとデータの発見 Databricks アシスタントのドキュメント には、これらのタスクに関する高レベルの情報と詳細が記載されていますが、コード生成のためのジェネレーティブAIは比較的新しいものであり、これらのアプリケーションを最大限に活用する方法はまだ学習中です。 このブログ記事では、Databricks アシスタントを最大限に活用するための5つのヒントとトリックについて説明します。 Databricks アシスタントのための5つのヒント 1. より良い応答を得るためにFind Tablesアクションを使用する Databricks アシスタン

Delta Sharingによるグローバル・データ・コラボレーションの構築

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。 革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。 このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。 多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。 ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

Intel Gaudi 2 AIアクセラレーターによるLLMトレーニングと推論

Databricksでは、お客様がデータのプライバシーやコントロールを犠牲にすることなく、ご自身のデータでジェネレーティブAIアプリケーションを構築し、展開できるようにしたいと考えています。 カスタムAIモデルのトレーニングをご希望のお客様には、簡単かつ効率的に、低コストでトレーニングできるようお手伝いします。 この課題に対処するための1つの手段は、MLハードウェアの最適化です。この目的のために、私たちはLLMスタックが様々なMLハードウェアプラットフォーム(例えば、NVIDIA [1][2]、AMD [3][4])をシームレスにサポートできるよう、たゆまぬ努力を続けてきました。 本日は、AIトレーニングおよび推論市場におけるもう1つの主役、Intel® Gaudi® AIアクセラレーター・ファミリーについてご紹介します! これらのアクセラレータは、AWS(第一世代のGaudi)、Intel Developer Cloud(Gaudi 2)、およびオンプレミス実装の場合はSupermicroとWiWynn(Gau

PySparkによるパラメータ化クエリ

PySparkは常にデータを問い合わせるための素晴らしいSQLとPython APIを提供してきました。 Databricks Runtime 12.1とApache Spark 3.4の時点で、パラメータ化されたクエリは、Pythonicプログラミングパラダイムを使用してSQLでデータをクエリする安全で表現力豊かな方法をサポートしています。 この投稿では、PySparkでパラメータ化されたクエリを作成する方法と、それがあなたのコードにとって良いデザインパターンである場合について説明します。 パラメータは、Sparkコードの再利用やテストを容易にするのに役立ちます。 また、良いコーディングの実践も奨励しています。 この記事では、PySparkのクエリをパラメータ化する2つの異なる方法を示します: PySpark カスタム文字列フォーマット パラメータマーカー 両方のタイプのPySparkパラメータ付きクエリの使い方を見て、組み込みの機能が他の選択肢よりも優れている理由を探ってみましょう。 パラメータ化されたクエリ