電子製品は、新しい消費者デバイス、エネルギー、交通、ロボット、接続性、データなどの絶え間ない需要により、驚異的な速度で進化しています。しかし、電子製品の設計と製造の背後にあるプロセスは、面倒で時間がかかり、時代遅れの慣行により大きく変わっていません。これが、電子業界のAI革新のリーダーであるWizerrが、部品エンジニアリングのためのGenAIパワードのチームメイトを構築し、設計、エンジニアリング、部品調達の時間を最大80%短縮することを目指した理由です。 歴史的に、電子部品エンジニアリングで使用される製品データは、非構造化のデータシート、マニュアル、エラータ、API、コードドキュメンテーションの迷宮に閉じ込められ、それを解き明かすには深い専門知識が必要でした。Wizerrの革新的なソリューションは、パワーマネジメント、RF、ワイヤレス、組み込みシステムに事前にトレーニングされたチームメイトです。彼らは複雑な電子仕様の解釈、技術的に正確なコンポーネントの推奨、代替部品の探索、ブロック図の設計に精通しており、最適化されたエンジニアリングBOM(部品表)を迅速に作成します。 Databricks Data Intelligence Platformは、ソリューション開発において重要であり、Wizerrにデータを統合、スケールアップ、運用化する能力を提供し、数週間で実用的でスケーラブルなソリューションを構築することが可能になりました。 課題:100万のデータシートへのスケーリング 電子部品のデータシートは、表や図、専門用語が詰まった密度の高い非構造化文書です。伝統的なデータパイプラインは、いくつかの要因により、ボリュームと複雑さに苦労しています: 一貫性のないフォーマット:各データシートはレイアウトが独特で、適応可能なパーシングメカニズムが必要です。 リッチデータコンテキスト:ChatGPTのようなツールを動かすために使用される大規模言語モデル(LLMs)は、複雑な表、図、グラフ、PDFなどから数値を解釈する際に課題があります。さらに、電圧範囲や電流出力などの仕様を抽出し解釈するためには、正確な数値推理と業界特有の意味論的推理が必要です。 スケーリング要件:100万のデータシートを一括で処理し、高スループットと低レイテンシーでリアルタイムの操作をサポートしながら、データの整合性と精度を維持する。 モデルの反復:データシートから複雑な情報を抽出し、正確でコンテキストに応じたクエリ応答のためのGenAIモデルを最適化するためのトレーニング、実験、改良。 伝統的なデータパイプラインがそのようなタスクの量と複雑さに苦労していたところ、Databricksの堅牢なエコシステムはWizerrのELX AIエンジンとワークフローを大幅に改善しました。 Databricksが複雑なワークフローを簡素化した方法 1. Sparkを用いた並列化されたデータ取り込み Apache Spark™の分散コンピューティング機能により、Wizerrは数千のデータシートを同時に取り込み、解析することができました。DatabricksのApache Spark用に最適化されたランタイムは、処理時間を大幅に短縮しました。パーティショニングとZオーダーと組み合わせることで、以前は数日かかっていたデータの取り込みが数時間で完了し、取り込みにかかるコストと時間を90%以上節約することができました。 PandasとのSpark統合は、WizerrがパイプラインをDatabricksに移行するのを助け、シームレスなデータ操作体験を提供し、分散データ処理への移行を図るチームの学習曲線を下げました。 コストと時間の削減に加えて、Databricksは処理中のエラーハンドリングとトレーサビリティを強化しました。プラットフォームのDelta Lake ACID準拠と構造化ログは、Wizerrが特定の段階やデータエントリでエラーを特定し、デバッグするのを簡単にしました。これにより、パイプライン全体を再実行する必要がなくなりました。 2. Unity Catalogにより強化されたデータガバナンス Wizerrのエンタープライズ顧客にとって、Unity Catalogは、データを安全かつ透明に管理する上で重要な役割を果たしました。主な利点は以下の通りです。 集中化されたメタデータ: データスキーマと系統の統一ストレージが、データ変換の追跡を容易にします。 ロールベースのアクセス:業界標準に準拠した形で、機密データへのアクセスを安全に許可します。 チーム間のコラボレーション:複数のチームが重複やデータの孤立なく関連データセットにアクセスできるようにしました。 3. スケーラブルなAIモデルトレーニング DatabricksのMLflow統合は、Wizerrに微調整された言語モデルをシームレスにパイプラインに組み込む能力を提供し、トレーニングとデプロイメントを効率化しました。 モデル追跡:MLflowは、異なるLLM(Llama 3.1 8B instructやMistral 7B instructなど)や量子化方法を試し、レイテンシ、スループット、精度、精度などの指標を比較するのを容易にしました。初期の結果に基づき、Wizerrは将来、Databricksの提供とホスティングサービスを使用して、自社の微調整されたLLMをホストすることを検討しています。 ハイパーパラメータチューニング:Databricks Mosaic AI Trainingパラメータ設定とそのモデルパフォーマンスへの影響を追跡し、さまざまな実験設定での効率的なハイパーパラメータ最適化を促進。 バージョニングとデプロイメント:MLflowのモデルレジストリは、実験から本番環境への移行をスムーズにし、バージョン管理を簡素化し、信頼性の高いモデルのデプロイメントを確保しました。 4. コラボレーションモデルワークベンチ Databricksの協調的な環境は、Wizerrのモデルパフォーマンスを評価するための中心的なハブとなりました。並列比較により、チームは"電圧 - 出力(最小)"や"電流 - 出力"などの仕様を抽出するための出力を比較することができました。視覚化ツールは、モデルの予測とエラーの詳細な視覚化によりデバッグプロセスを簡素化しました。また、Databricksプラットフォームは、エンジニア、データサイエンティスト、ドメインエキスパートがリアルタイムで協力することを可能にし、反復的な改善を促進しました。 5. コスト効率的な計算のためのダイナミックオートスケーリング Databricksのオートスケーリングクラスタは、Wizerrのワークロードの強度に合わせて動的に調整されました。ピーク時のデータ取り込み期間中、クラスタは自動的にスケールアップして高スループットを処理し、アイドル期間中には自動的にスケールダウンしてリソース使用を最適化し、コストを削減しました。 6. メダリオンアーキテクチャとDeltaテーブル Deltaテーブル、Unity Catalog、Sparkの統合により、WizerrはDatabricks環境内外のデータベースにシームレスにアクセスできます。これにより、Wizerrはより少ないコードでテーブルをクエリし、Sparkの分散性を利用することができました。また、DeltaテーブルとSQLテーブル間のCRUD操作もかなり時間が短縮されました。 パイプラインの各段階で処理されたデータを保存することでエラーチェックが簡単になり、Deltaテーブルのバージョニングにより、Wizerrは変更を追跡し、バージョンを比較し、必要に応じて迅速にロールバックすることができ、ワークフローの信頼性を強化しました。 結果:データシート処理の変革 Databricksをワークフローに統合することで、Wizerrはいくつかの利点を得ました。 高速な処理速度:データシートの取り込みとパーシング時間を90%削減し、100万以上のデータシートを記録時間で処理しました。 データ整合性の向上:Unity Catalogを用いた強化された、オープンなデータガバナンスが一貫性と信頼性のある出力を保証しました。 モデルの反復速度の向上:MLflowとDatabricks Workbenchが、オープンソースAIモデルの実験と微調整を容易かつ迅速にしました。 努力のいらないスケーラビリティ:Databricksのアーキテクチャは、データ量が増え続ける中でWizerrが努力なくスケールアップできるようにします。 シームレスなコラボレーション:統一されたツールが複数のチームを一つにまとめ、意思決定とイノベーションを加速しました。 データアーキテクトとソリューションエンジニアにとって重要な理由 Wizerrのジャーニーは、電子部品エンジニアリングを変革するだけでなく、任意の業界が複雑なAIワークフローを運用化するための設計図でもあります。データを統合し、ドメイン固有のAIモデルを活用し、大規模な解決策を運用化することで、Wizerrは適切なツールが適切なビジョンと出会ったときに何が可能かを示しました。Databricksは、異なるデータを行動可能な洞察に統合し、AIモデルを迅速かつ大規模に構築・デプロイし、チームが革新的で実用的なソリューションを以前よりも早く提供する力と柔軟性を提供します。 すべての業界には課題があります。Wizerrの成功は、適切なプラットフォームがあれば、これらの課題を我々の仕事方法を革新する機会に変えることができることを示しています。 このブログ記事は、Arjun Rajput(アカウントエグゼクティブ、Databricks)とAvinash Harsh(CEO、Wizerr AI)によって共同で執筆されました。