メインコンテンツへジャンプ

簡素化された XML データ取り込みの発表

Share this post

Databricks で XML データの取り込みがネイティブにサポートされるようになりました。

XML は、製造、医療、法律、旅行、金融などのさまざまなユースケースで複雑なデータ構造を表すための一般的なファイル形式です。 これらの業界がアナリティクスとAIの新たな機会を見つけるにつれて、大量の XML データを活用する必要性が高まっています。 Databricks の顧客は、このデータをデータ インテリジェンス プラットフォームに取り込み、そこで Mosaic AI や Databricks SQL などの他の機能を使用してビジネス価値を高めることができます。

ただし、回復力のある XML パイプラインを構築するには、多くの作業が必要になる場合があります。 XML ファイルは半構造化されており、任意の大きさであるため、多くの場合、処理が複雑です。 これまで、XML の取り込みには OSS パッケージの使用や XML を別のファイル形式に変換する必要があり、その結果、データエンジニアがこれらの複雑なパイプラインを維持する必要がありました。

このプロセスを効率化するために、Auto Loader と COPY INTO 内で XML ファイルのネイティブ サポートを開発しました。 (Auto Loader for XML は Delta Live Tables およびDatabricks Workflows で動作することに注意してください) このサポートにより、外部パッケージやファイルタイプの変換なしで、直接取り込み、クエリ、解析を行うことができます。 ユーザーは、Auto Loader のスキーマ推論や進化などの強力な機能も活用できます。

例1:バッチワークロード用の XML ファイルを取り込む

df = (spark.read
     .option("rowTag", "book")
     .xml(inputPath))

次の XML を含むサンプル入力ファイルの場合:

<books>
  <book id="103">
    <author>Corets, Eva</author>
    <title>Maeve Ascendant</title>
  </book>
  <book id="104">
    <author>Corets, Eva</author>
    <title>Oberon's Legacy</title>
  </book>
</books>

上記のクエリは、次のスキーマと解析結果を推論します。

root
|-- _id: long (nullable = true)    
|-- author: string (nullable = true)
|-- title: string (nullable = true)

+---+-----------+---------------+
|_id|author     |title          |
+---+-----------+---------------+
|103|Corets, Eva|Maeve Ascendant|
|104|Corets, Eva|Oberon's Legacy|
+---+-----------+---------------+

顧客は、新しい XML 固有の機能の恩恵も受けられます。 たとえば、各行レベルの XML レコードを XML スキーマ定義 (XSD) に照らして検証できるようになりました。 また、 from_xml Apache Spark 関数を使用して、 SQL 列またはストリーミング データソース (Apache Kafka 、 Amazon Kinesis など) に埋め込まれた XML 文字列を解析することもできます。

例2:ストリーミング ワークロード用に Auto Loader を使用して XML ファイルを取り込む

この例では、スキーマ推論、スキーマ進化、および XSD 検証を示します。

(spark.readStream
    .format("cloudFiles")  
    .option("cloudFiles.format", "xml")
    .option("rowTag", "book")
    .option("rowValidationXSDPath", xsdPath)
    .option("cloudFiles.schemaLocation", schemaPath)
    .option("cloudFiles.schemaEvolutionMode", "addNewColumns")
    .load(inputPath)
    .writeStream
    .format("delta")
    .option("mergeSchema", "true")
    .option("checkpointLocation", checkPointPath)
    .trigger(Trigger.AvailableNow()))

Lufthansa での XML データ取り込み

Lufthansa の業界ソリューションは、データ インテリジェンス プラットフォーム上に構築された Lufthansa Cargo データ ソリューション用の XML データ ソースを取り込みました。 新しい XML サポートにより、チームは取り込みを効率化し、データエンジニアリングの負担の多くを自動化できるようになりました。 その結果、実務者は複雑なパイプラインを維持するのではなく、イノベーションに集中できるようになります。

「Lufthansa Cargo は、Auto Loader による XML データの統合を効率化することに成功しました。これは、複雑な航空貨物予約データの処理における大きな進歩を示しています。 コスト効率が高く、信頼性の高いデータの『ランディング』、スキーマの推論と進化により、『自動操縦』モードが可能になっています。 全体として、Databricksおよび Lufthansa Industry ソリューションとの連携により、当社のチームは重要なタスクとイノベーションに集中できるようになりました」
— Lufthansa Cargo、AD&M BI アナリティクス責任者、Björn Roccor 氏 & Lufthansa Cargo、アナリティクス技術マネージャー、Jens Weppner 氏

次のステップ

ネイティブ XML サポートは現在、すべてのクラウド プラットフォームでパブリック プレビュー段階にあり、Delta Live Tables と Databricks SQL の両方で利用できます。 詳細については、ドキュメントをご覧ください。

Databricks 無料トライアル

関連記事

データエンジニアのための Databricks Assistant のヒントとコツ

生成AI革命はチームの働き方を変えつつあり、Databricks Assistantはこれらの進歩を最大限に活用しています。会話型インターフェイスを介してデータをクエリできるため、 Databricksワークスペース内での生産性が向上します。アシスタントは Databricks用のデータインテリジェンスエンジンであるDatabricksIQ を搭載しており 、データのセキュリティを確保し、応答が正確で、企業の詳細に合わせて調整されていることを確認します。 Databricks Assistantを使用すると 、タスクを自然言語で記述して、開発者のエクスペリエンスを中断することなく、複雑なコードを生成、最適化、またはデバッグできます。 この投稿では、ブログ「 Databricks Assistantを最大限に活用するための5つのヒント 」 を拡張し 、アシスタントが退屈な作業の排除、生産性と没入感の向上、価値実現までの時間の短縮によってデータエンジニアの生活をどのように改善できるかに焦点を当てます。さまざまなデータ

Apache Spark Structured Streamingでレイテンシが1秒未満になりました

Original: Latency goes subsecond in Apache Spark Structured Streaming 翻訳: saki.kitaoka Apache Spark Structured Streaming は、オープンソースのストリーム処理プラットフォームの代表格です。 the Databricks Lakehouse Platform のストリーミングを支える中核技術でもあり、バッチ処理とストリーム処理のための統一APIを提供しています。ストリーミングの採用が急速に進む中、多様なアプリケーションがストリーミングを活用してリアルタイムな意思決定を行いたいと考えています。これらのアプリケーションのうち、特に運用型のアプリケーションでは、より低いレイテンシーが要求されます。Sparkの設計は、高いスループットと使いやすさを低コストで実現する一方で、サブセカンドレイテンシーに最適化されていません。 本ブログでは、Structured Streamingの固有の処理レイテンシーを低減す

マテリアライズド・ビューによるLakeviewダッシュボードの高速化

このブログ記事では、Databricks SQL マテリアライズド・ビュー をLakeviewダッシュボードで使用して、ビジネスに新鮮なデータと洞察を提供する方法を紹介します。 先日、 Databricks Data Intelligence Platform におけるLakeviewダッシュボードのパブリックプレビューを 発表 しました。Lakeview のダッシュボードは、Databricksの顧客のためのビジュアライゼーションとレポーティング体験の作成において、大きな前進を意味します。 視覚化が大幅に改善され、共有や配布に最適化されたシンプルなデザイン体験を提供します。 Lakeview ダッシュボードは Databricks SQL (DBSQL) データウェアハウス上で実行されます。 DBSQLを使用すると、レガシーなクラウドデータウェアハウスの数分の一のコストで、選択したツールですべてのSQLおよびBIアプリケーションを大規模に実行できます。 マテリアライズド・ビューは、ビジネスに新鮮なデータを提供す
プラットフォームブログ一覧へ