日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ!Legendary Heroes of DATA + AI !!」。前回のポストから早5ヶ月。Legendary Heroes of Data+AI の皆さんの輪もドンドン広がっています! 今回は、Vol 4として、株式会社ナレッジコミュニケーション 小山 翼 様 をご紹介します。 —- 以前にご紹介したLegendary Heroes of DATA+AI!はこちら-------- [Vol.1] 株式会社NTT データ 斎藤 祐希 様、洪 元 様 [Vol.2] アクセンチュア株式会社 飯塚 希翔 様 [Vol.3] 日本マイクロソフト株式会社 中里 浩之 様 <株式会社ナレッジコミュニケーション 小山 翼 様> 株式会社ナレッジコミュニケーション(以下、ナレッジコミュニケーション)小山です。2022年4月に新卒としてナレッジコミュニケーションに入社し、主にクラウドサービスを利用したデータエンジニアとしてデータ分析基盤構築の支援に従事しています。 弊社はお客様の環境やニーズに応じて、AWS/Azure両方のクラウドで上でデータブリックスの導入ご支援をしていますが、入社して1年あまりで10件近くほどのプロジェクトに参画させていただきました。たくさんのプロジェクトを担当する中で、当然ではあるのですがお客様ごとに抱えるデータに対する課題は様々であることを実感しています。 例えば、「データが様々な場所に散在していることによりデータ活用ができていない」、「既存の環境でおこなっている処理がビッグデータであるが故に処理時間及びコストが肥大化している」、「データは持っているが機密データなどの管理・権限の統制が取れておらずデータ分析できる体制に至っていない」などです。 こういったデータに関するそれぞれの課題に対し、データブリックスはレイクハウスを作る、Spark の技術を活用する、Unity Catalog でデータガバナンスを効かせることですべて解決できます。 また、他クラウドサービスとの連携を最適化し、データブリックスというひとつのプラットフォーム上でデータ取り込み、管理、ETL、分析、可視化、機械学習への応用、すべてを可能にしているのは非常にシンプルといえます。 こういった経験を通じてデータブリックスの魅力を肌で感じ、より日本で広めていきたいと考えるようになりました。 私が携わったプロジェクトを1つご紹介させてください。それは「データ集計のパフォーマンス改善プロジェクト」という取り組みだったのですが、お客様は、既存データ分析基盤におけるETL処理、データ集計、可視化におけるそれぞれの機構で別々のサービスを使用されており、運用工数の肥大化が課題として持っていらっしゃいました。 そこでデータブリックスのレイクハウスアーキテクチャを採用し、一連の処理をひとつのプラットフォーム上で実現することよる効率化及び運用コストの削減を目指すことになりました。 初期フェーズとしては、コストやパフォーマンスのインパクトが大きいデータ集計の処理時間やコストが既存処理と比べてどの程度になるのかといったスコープでの検証を行いました。 検証に利用したデータは「いつ、誰が、どのコンテンツを視聴したか」といった情報を記録した動画に関するログであり、集計対象のデータは最大数百億にまでのぼります。こういったビッグデータに対し、チューニングをしながらデータブリックス レイクハウス プラットフォームの次世代エンジンである「Photon」を使って集計を実施、その結果、数百億のレコードに対し、これまでは数時間かかっていたところが、わずか数分で集計が完了するという結果となりました。 さらに、データブリックスは従量課金制を採用しているため、実際に発生するコストは集計に利用した数分間のみになります。あまりのパフォーマンス性能の良さにお客様からは驚きの声をいただくこともありましたね。 このお客様は、今後は集計のみならず、ETL処理や可視化へとスコープを広げ、いずれは既存処理にない機械学習も活用する予定となっており、こうしたユースケースを広げられるところが、データブリックスの持つ本当の価値だと確信していますし、お客様にとって魅力を最大限に感じてもらえるような支援をこれからも継続していきます。 Databricks Championとしての今後の目標は、常に最新の技術について学び、それらをプロジェクトや情報発信を通じて積極的に広めていきたいと考えています。 特に最近話題となっているLLM を活用した業務を効率化するようなソリューションには興味があります。AI と人間が共存する世界はもう既にきており、データブリックスを通じてデータ&AIの領域が人々にとってより身近に、より便利にする支援ができればと考えています。 日本におけるデータブリックスの普及に先駆けて、データブリックス社の皆さんやDatabricks Championの皆さん、弊社のメンバーとこれからも活動に取り組んでいきたいと思います ーーーーーーーーー 「データブリックスを通じてデータ&AIの領域が人々にとってより身近に、より便利にする支援ができればと考えています。」 2023年6月26日から開催された、弊社のフラグシップイベント「Data + AI Summit」のテーマは、”Generative AI”。 ますますAIが私たちの身近なものになりつつ今だからこそ、データとAIの活用を通し、多くの企業がイノベーションを起こせるように、私たちデータブリックスも、Databricks Championの皆さんと頑張っていきたいと思います!引き続きご支援よろしくお願いいたします!! 弊社では今後もこのLegendary Heroes of Data+ AI を目指す皆様を強力にサポートします!! ーーーーーーーーーーーー Databricks Champion とは Databricks Champion は、弊社が提供する「データとAIの民主化」を推進するソリューションの特性や概念をご理解いただき、技術的な専門家という側面だけでなく、エバンジェリストとして、その深い知見をマーケットに広く発表いただく”Legendary Heroes of DATA + AI”です! 当プログラムは、こうしたThought Leadershipの役割をも担い、インフルエンサーとしてマーケットに一石を投じていただける方をDatabricks Championとして認定するプログラムです。 <Databricks Champion になるための9つのステップ> Determine track - Data Engineering / Data Science Set bi-weekly sync cadence with your Databricks mentor Plan & attend Databricks academy course Plan & attend Databricks architecture workshop Setup Databricks workspace Download & practice Databricks demos Develop technical validation plan & execute a mock POC Shadow/co-develiver a joint customer engagement Become Databricks certified : Pass Certified Associate Developer exam