メインコンテンツへジャンプ
導入事例

移民・帰化手続きをデータ活用で効率化

4000万

セールスリードのフォローアップの迅速化

10分

10分で1億2000万行のテーブル
取り込みが完了

24倍

クエリ実行性能が向上

SOLUTION: Application processing automation
CLOUD: AWS

「Databiricksに出会い、私たちが現実の状況に適応し続けるためにすべきことが明確になりました。」

USCIS(米国移民局)
データ・ビジネスインテリジェンス部門チーフ
ショーン・ベンジャミン氏

米国における、帰化、グリーンカード、労働許可の申請など、移民および市民権関連の申請件数は、過去10年間で急増しています。米国移民局(USCIS)に提出される申請書や請願書は数百万にもおよび、処理の遅延は危機的な状況に達しています。AILA(American Immigration Lawyers Association)のレポートによれば、2014年度以降、ケース全体にかかる処理時間は91%増加しています*。 USCISは、拡張が複雑で時間とコストがかかるオンプレミスのレガシーアーキテクチャが、この問題の起因であると考え、その解決策として、レガシーアーキテクチャをAWSとDatabiricksに移行。ビッグデータの処理能力の高さと、数十の異なるソース間のデータを連携できる統合分析プラットフォームが採用の決め手となりました。この移行の結果、運用効率が向上し、データ組織全体に新たな機会が創出され、ビジネスインテリジェンスの推進や、申請書や請願書の処理を効率化する機械学習のイノベーションの促進が実現しました。

オンプレミスのレガシーアーキテクチャに起因する処理の遅延

USCIS は、労働許可、移民扶助、亡命の申請や許可をはじめとする、移民および帰化手続きの管理を担っており、米国企業における重要な労働力の不足を緩和する一助となっています。このミッションを果たすには、何百万もの移民関連の申請を効率的に処理する必要があります。

USCISのエンジニアリングチームは、データと分析を活用して特定のプロセスの自動化、処理時間の短縮を試みましたが、Oracle、SAS、Informaticaなどのレガシーシステムで構成されたオンプレミスのテクノロジースタックは管理が非常に複雑で、圧倒的な規模のデータの存在が障壁となり、プロセスの改善は困難でした。

USCISのデータ・ビジネスインテリジェンス部門チーフのショーン・ベンジャミン(Shawn Benjamin)氏は、次のように述べています。「当局はETL処理にInformaticaを使用していましたが、パイプラインは安定していませんでした。そのため、開発サイクルが長く、ワークフローは時間がかかり、関連データをリアルタイムで提供することができませんでした。」USCISでは、2,300人を超えるデータアナリストやデータサイエンティストが何十もの異なるソースに散在するデータへのアクセスを必要としていました。彼らをサポートするには、この低い性能レベルは容認できるものではありませんでした。

USCIS において、データがもたらす可能性は無限大です。USCIS は、データサイエンスの観点からみたデータの活用法を模索していました。予測分析を活用することで、どのような申請書が最も多く提出されているのか、今後の申請件数はどのくらいになるのか、予約を守らない人の割合はどれくらいか、といった疑問を解決できます。申請をデジタル化し、NLP を使用してインタビューの評価を改善することで、プロセスを効率化する方法も模索していました。しかし、スケーラブルなデータサイエンスプラットフォームがないために、データサイエンティストはこれらのユースケースを実現できませんでした。

データインフラ刷新の必要性を認識した USCIS は、あらゆるデータのアクセスと取り込みを容易にし、さらにダウンストリームのデータ分析と機械学習を可能にする、クラウドベースの統合分析プラットフォームへの移行を決断します。

フルマネージド型のクラウドプラットフォームで複雑さを解消

Databiricksは、USCISが最も重要視していた課題を解決しました。プロセスの高速化による、データアナリストの意思決定者へのタイムリーなレポート提供と、データサイエンティストの運用改善を目的とした機械学習モデルの構築です。クラウドとDelta Lakeの性能を活用して、数分で26ノードのクラスタを容易にプロビジョニングし、10分以内に1億2,000万行のテーブルをS3に取り込むことができました。Databiricks導入前は、Informaticaで同じプロセスにおよそ2~3時間かかっていた作業です。

Databiricksはデータウェアハウス戦略のトランスフォーメーションエージェントとしても機能しました。Delta Lakeを活用してレイクハウスを構築し、保存場所に関係なくあらゆるデータを統合してダウンストリームで使用できるようにしています。USCISでは、実際、OracleからDatabiricksへの2,000テーブルの移行を一週間以内で完了することができました。

インタラクティブなNotebookを使用することで、データサイエンティストは、お互いに、また組織内の他のデータチームとも容易にコラボレーションできます。「Notebookを使用することで、1か所で複数のグループが連携して作業することが可能になりました。1つのインターフェースを共有して作業できるため、複数のインターフェースを使う煩雑さを回避できます。」また、MLflowを使用することで、複数の機械学習プロジェクトや実験を容易に構築できます。

データドリブンなイノベーションで運用を刷新

クラウドに移行し、データ分析ワークフローにデータブリックスを統合して以来、USCISはよりスマートな意思決定を行い、プロセスの効率化や機械学習を活用した申請処理の時間短縮を実現しています。この新しい効率性と機能により、データフットプリントを約30のデータソースから75のデータソースへと問題なく拡張することができました。

USCISでは現在、当局のデータをより迅速に理解することが可能となり、イノベーションの新たな機会が生まれています。ベンジャミン氏は、複雑なクエリを実行するのに、以前は丸一日かかっていたことを例に挙げています。Databiricksの導入で、同じクエリの実行にかかる所要時間は19分に短縮されました。これは、性能が24倍向上したことになります。トラブルシューティングに費やす時間が大幅に短縮されたことで、価値を創造する時間を増加させています。

Databiricksは6,000を超えるTableauダッシュボードをサポートしており、Tableau ダッシュボードの処理速度も著しく改善されています。以前は、一部のダッシュボードの実行に約15分かかり、データ負荷が高いためにクエリが完全に失敗に終わることもありました。しかし、Databiricksで同じクエリを実行すると、15秒以内にダッシュボードを返すことができます。データの洞察への迅速なアクセスは、ほぼリアルタイムでのスマートな意思決定を可能にしています。

データサイエンスチームは現在、全てのデータを活用してUSCISがデータドリブンな意思決定を行い、業務を効率化できるように支援しています。例えば、書面申請を電子申請に置き換えたeProcessingを導入し、業務を大幅に改善し、手続きの高速化を実現しました。ベンジャミン氏は、次のように述べています。「予約に来ない人の確率を予測したり、手作業による手続きを合理化したり、調査データのセンチメント分析をしたりなど、データ利活用の可能性は無限大です。」

データを解放し、誰でも容易に活用できるようにしたことで、USCISはユーザーベースを3倍に増やすことができました。より多くのデータやリソースが活用できるようになり、その性能が向上したことで、当局は電子移民システム(ELIS))、電子申請eProcessing、業務およびケース状況の報告、不正検出、難民庇護、国際業務(RAIO)、予測など、多くの新しいプログラムを導入しています。Databiricksは、USCISがどこからでもデータを抽出し、いつでも必要な人にデータを提供できるようにするための重要な要素して機能し、合法的な移民受け入れプロセスを円滑に進めるための技術革新と業務効率化を推進し続けます。

*出典:AILA Policy Brief:USCIS Processing Delays Have Reached Crisis Levels Under the Trump Administration(USCIS処理の遅延は、トランプ政権下で危機的な状況に達している)

Databricks and Tableau

米国移民局 (USCIS) では、Tableau を活用して移民・雇用申請や申請書の迅速な処理方法の理解に役立てています。現在、USCISのデータアナリストチームは、データブリックスと連携した6000以上のTableau のダッシュボードで実用的な気づきを視覚化し、業務の効率化を図っています。