2023년 1월 6일

지리 공간 데이터 제품 구축

이 블로그는 오래되었습니다. Databricks Lakehouse 내에서 지리공간 데이터를 저장하고 처리하는 최신 접근 방식은 이 Spatial SQL 블로그를 참조해 주세요.

지리공간 데이터는 지도, 지도 제작 및 최근에는 디지털 콘텐츠를 통해 수세기 동안 혁신을 주도해 왔습니다. 예를 들어, 가장 오래된 지도는 매머드 엄니 조각에 새겨진 것으로 발견되었으며 기원전 약 25000년으로 거슬러 올라갑니다. 이는 지리공간 데이터가 사회가 의사 결정을 내리는 데 사용하는 가장 오래된 데이터 소스 중 하나임을 의미합니다. 공간 분석의 탄생으로 불리는 최근의 예는 1832년 샤를 피케(Charles Picquet)가 지리공간 데이터를 사용하여 파리의 콜레라 발병을 분석한 것입니다. 수십 년 후인 1854년 존 스노우(John Snow)는 런던의 콜레라 발병에 대해 동일한 접근 방식을 따랐습니다. 이 두 사람은 지리공간 데이터를 사용하여 당시 가장 어려운 문제 중 하나를 해결하고 수많은 생명을 구했습니다. 20세기에는 지리 정보 시스템(GIS)의 개념이 1967년 캐나다 오타와에서 산림농촌개발부(Department of Forestry and Rural Development)에 의해 처음 소개되었습니다.

오늘날 우리는 클라우드 컴퓨팅 산업 혁명의 한가운데에 있습니다. 슈퍼컴퓨팅 규모를 모든 조직에서 사용할 수 있으며, 스토리지와 컴퓨팅 모두에 대해 사실상 무한하게 확장 가능합니다. 데이터 메시 및 데이터 마켓플레이스와 같은 개념이 데이터 커뮤니티 내에서 플랫폼 연합 및 상호 운용성과 같은 질문에 답하기 위해 등장하고 있습니다. 이러한 개념을 지리공간 데이터, 공간 분석 및 GIS 시스템에 어떻게 적용할 수 있을까요? 데이터 제품의 개념을 채택하고 지리공간 데이터를 제품으로 설계함으로써 가능합니다.

이 블로그에서는 최신이고 강력한 확장 가능한 지리공간 데이터 제품을 설계하는 방법에 대한 관점을 제공할 것입니다. Databricks Lakehouse Platform을 사용하여 오늘날과 미래의 가장 어려운 문제를 해결하는 데 가장 가치 있는 자산 중 하나인 지리공간 제품의 잠재력을 최대한 발휘하는 방법을 논의할 것입니다.

데이터 제품이란 무엇인가요? 그리고 어떻게 설계하나요?

가장 광범위하고 간결한 "데이터 제품"의 정의는 DJ Patil(미국 최초의 최고 데이터 과학자)이 Data Jujitsu: The Art of Turning Data into Product에서 다음과 같이 말한 것입니다. "데이터를 사용하여 최종 목표를 촉진하는 제품". 이 정의의 복잡성(Patil이 스스로 인정한 대로)은 대시보드, 보고서, Excel 스프레드시트, 심지어 이메일을 통해 공유되는 CSV 추출물을 포함하여 가능한 제품의 폭넓은 범위를 포함하기 위해 필요합니다. 제공된 예는 품질, 견고성 및 거버넌스 측면에서 빠르게 저하됨을 알 수 있습니다.

성공적인 제품과 실패한 제품을 구별하는 개념은 무엇일까요? 포장인가요? 내용인가요? 내용의 품질인가요? 아니면 시장에서의 제품 채택률인가요? Forbes는 성공적인 제품의 10가지 필수 요소를 정의합니다. 이를 요약하는 좋은 프레임워크는 가치 피라미드입니다.

Figure 1: Product value pyramid (source) — Figure 1: Product value pyramid (source )

가치 피라미드는 제품의 각 측면에 우선순위를 부여합니다. 우리가 제품에 대해 묻는 모든 가치 질문이 동일한 비중을 갖는 것은 아닙니다. 출력이 유용하지 않다면 다른 측면은 중요하지 않습니다. 출력은 실제로 제품이 아니라 유용한 결과 풀에 대한 데이터 오염물이 됩니다. 마찬가지로 확장성은 단순성과 설명 가능성이 해결된 후에만 중요합니다.

가치 피라미드는 데이터 제품과 어떤 관련이 있을까요? 각 데이터 출력은 데이터 제품이 되기 위해 다음을 수행해야 합니다.

명확한 유용성을 가져야 합니다. 사회가 생성하는 데이터의 양은 우리가 생성하는 데이터 오염물의 양에 필적합니다. 이것들은 명확한 가치와 용도가 부족한 출력이며, 그것들을 어떻게 처리할지에 대한 전략은 더욱 부족합니다.
설명 가능해야 합니다. AI/ML의 등장으로 설명 가능성은 데이터 기반 의사 결정에 더욱 중요해졌습니다. 데이터는 그것을 설명하는 메타데이터만큼 좋습니다. 음식에 비유하자면 맛은 중요하지만, 재료의 영양가가 더 중요한 요소입니다.
단순해야 합니다. 제품 오용의 예는 시리얼을 먹기 위해 숟가락 대신 포크를 사용하는 것입니다. 또한 단순성은 필수적이지만 충분하지는 않습니다. 단순성을 넘어서 제품은 직관적이어야 합니다. 가능한 한 데이터의 의도된 사용과 의도되지 않은 사용 모두 명확해야 합니다.
확장 가능해야 합니다. 데이터는 사용함에 따라 성장하는 몇 안 되는 리소스 중 하나입니다. 데이터를 더 많이 처리할수록 더 많은 데이터가 생깁니다. 시스템의 입력과 출력이 모두 무제한으로 계속 증가한다면 시스템은 컴퓨팅 성능, 스토리지 용량 및 컴퓨팅 표현력에서 확장 가능해야 합니다. Databricks와 같은 클라우드 데이터 플랫폼은 이 세 가지 측면 모두에 대한 답을 제공하는 독특한 위치에 있습니다.
습관을 생성해야 합니다. 데이터 도메인에서는 소매 제품의 경우와 같이 고객 유지에 신경 쓰지 않습니다. 그러나 습관 생성이 가치는 모범 사례에 적용될 때 분명합니다. 시스템과 데이터 출력은 모범 사례를 보여주고 이를 촉진해야 합니다. 데이터와 시스템을 의도된 방식으로 사용하는 것이 반대 방식보다 쉬워야 합니다.

지리공간 데이터는 위에서 언급한 모든 측면을 준수해야 하며, 모든 데이터 제품도 마찬가지입니다. 이러한 어려운 요구 사항 외에도 지리공간 데이터에는 몇 가지 특정 요구 사항이 있습니다.

지리공간 데이터 표준

지리공간 데이터 표준은 지리 데이터가 일관되고 신뢰할 수 있는 방식으로 수집, 구성 및 공유되도록 보장하는 데 사용됩니다. 이러한 표준에는 데이터 형식, 좌표계, 지도 투영 및 메타데이터와 같은 항목에 대한 지침이 포함될 수 있습니다. 표준을 준수하면 서로 다른 조직 간에 데이터를 쉽게 공유할 수 있어 협업이 강화되고 지리 정보에 대한 액세스가 확대됩니다.

영국 정부 지리공간 위원회(Geospatial Commision)는 지리공간 데이터의 경우 적용될 데이터 표준의 중앙 저장소로 영국 지리공간 데이터 표준 등록부(UK Geospatial Data Standards Register)를 정의했습니다. 또한 이 등록부의 임무는 다음과 같습니다.

"영국 지리공간 데이터가 더 일관되고 통합되며 더 넓은 범위의 시스템에서 사용될 수 있도록 보장합니다." - 이러한 개념은 설명 가능성, 유용성 및 습관 생성(가치 피라미드의 다른 측면일 수 있음)의 중요성을 강조합니다.
"영국 지리공간 커뮤니티가 관련 표준 및 표준 기관에 더 많이 참여하도록 지원합니다." - 커뮤니티 내에서의 습관 생성은 표준의 강력하고 비판적인 설계만큼 중요합니다. 채택되지 않으면 표준은 쓸모없습니다.
"다른 정부 부문 내에서 지리공간 데이터 표준의 이해와 사용을 옹호합니다." - 가치 피라미드는 표준에도 적용됩니다. 준수의 용이성(유용성/단순성), 표준의 목적(설명 가능성/유용성), 채택(습관 생성)과 같은 개념은 표준의 가치 창출에 중요합니다.

데이터 표준 임무를 달성하는 데 중요한 도구는 FAIR 데이터 원칙입니다.

Findable (찾기 쉬움) - 데이터를 (재)사용하는 첫 번째 단계는 데이터를 찾는 것입니다. 메타데이터와 데이터는 사람과 컴퓨터 모두 쉽게 찾을 수 있어야 합니다. 기계가 읽을 수 있는 메타데이터는 데이터 세트 및 서비스의 자동 검색에 필수적입니다.
Accessible (접근 가능) - 사용자가 필요한 데이터를 찾으면 인증 및 권한 부여를 포함하여 액세스할 수 있는 방법을 알아야 합니다.
Interoperable - 데이터는 일반적으로 다른 데이터와 통합되어야 합니다. 또한, 분석, 저장 및 처리를 위해 애플리케이션 또는 워크플로우와 상호 운용되어야 합니다.
Reusable - FAIR의 궁극적인 목표는 데이터 재사용을 최적화하는 것입니다. 이를 달성하기 위해 메타데이터와 데이터는 복제 및/또는 다른 설정에서 결합될 수 있도록 잘 설명되어야 합니다.

저희는 FAIR 원칙이 신뢰할 수 있는 확장 가능한 데이터 제품 설계에 매우 중요하다고 믿습니다. FAIR가 상식에 기반한 것인데, 왜 저희 고려 사항에 핵심이 될까요? "저는 FAIR에서 새로운 것은 없다고 생각하지만, 잘하는 점은 데이터 개선에 대한 총체적인 접근 방식의 필요성을 쉽게 이해할 수 있도록 명확하게 설명한다는 것입니다. 이러한 의사소통의 용이성 때문에 FAIR는 지리 공간 커뮤니티뿐만 아니라 데이터 개선을 위한 포괄적인 용어로 점점 더 널리 사용되고 있습니다." - 데이터 개선을 위한 FAIR 바람이 우리의 방향을 설정합니다.

이 접근 방식을 더욱 지원하기 위해 연방 지리 데이터 위원회는 2021-2024년 기간을 다루고 2020년 11월에 승인된 국가 공간 데이터 인프라(NSDI) 전략 계획을 개발했습니다. NSDI의 목표는 본질적으로 FAIR 원칙이며, 공통 표준을 따르고 데이터 공급망의 각 단계를 거쳐 조직 간에 흐르는 데이터 제품인 순환 경제를 촉진하는 시스템을 설계하고 새로운 가치와 기회를 창출한다는 동일한 메시지를 전달합니다. 이러한 원칙이 다양한 관할권에 퍼지고 다양한 규제 기관에서 채택되고 있다는 사실은 접근 방식의 견고함과 건전성을 입증합니다.

FAIR 개념은 데이터 제품 설계와 매우 잘 맞아떨어집니다. 사실 FAIR는 전체 제품 가치 피라미드를 가로지르며 가치 순환을 형성합니다. 가치 피라미드와 FAIR 원칙을 모두 채택함으로써 내부 및 외부 전망을 모두 갖춘 데이터 제품을 설계합니다. 이는 데이터 축적에 반대되는 데이터 재사용을 촉진합니다.

왜 FAIR 원칙이 지리 공간 데이터 및 지리 공간 데이터 제품에 중요할까요? FAIR는 지리 공간 데이터를 초월하며, 사실 데이터를 초월합니다. 이는 지리 공간 데이터 및 지리 공간 시스템을 포함한 모든 것에 적용될 수 있는 좋은 설계를 위한 간단하면서도 일관된 원칙 시스템입니다.

Grid index systems

기존 GIS 솔루션에서 공간 연산 성능은 일반적으로 트리 구조(예: KD 트리, 볼 트리, Quad 트리 등)를 구축하여 달성됩니다. 트리 접근 방식의 문제는 결국 확장성 원칙을 위반한다는 것입니다. 데이터가 너무 커서 트리를 구축하기 위한 처리가 불가능하고, 트리를 구축하는 데 필요한 계산 시간이 너무 길어서 목적을 달성할 수 없게 됩니다. 이는 데이터 접근성에도 부정적인 영향을 미칩니다. 트리를 구성할 수 없으면 전체 데이터에 액세스할 수 없고, 결과적으로 결과를 재현할 수 없습니다. 이 경우 그리드 인덱스 시스템이 해결책을 제공합니다.

그리드 인덱스 시스템은 처음부터 지리 공간 데이터의 확장성 측면을 염두에 두고 구축됩니다. 트리를 구축하는 대신 관심 영역을 포함하는 일련의 그리드를 정의합니다. H3(Uber에서 개척)의 경우 그리드가 지구 전체 영역을 포함하며, 로컬 그리드 인덱스 시스템(예: 영국 국가 그리드)의 경우 관심 있는 특정 영역만 포함할 수 있습니다. 이러한 그리드는 고유 식별자를 가진 셀로 구성됩니다. 위치와 그리드의 셀 간에는 수학적 관계가 있습니다. 이로 인해 그리드 인덱스 시스템은 매우 확장 가능하고 병렬적인 특성을 갖습니다.

Figure 4: Grid Index Systems (H3, British National Grid)

그리드 인덱스 시스템의 또 다른 중요한 측면은 오픈 소스라는 것입니다. 이를 통해 인덱스 값을 데이터 생산자와 소비자 모두가 보편적으로 활용할 수 있습니다. 데이터는 데이터 공급망을 거치는 모든 단계에서 그리드 인덱스 정보로 풍부해질 수 있습니다. 이는 그리드 인덱스 시스템을 커뮤니티 주도 데이터 표준의 예로 만듭니다. 본질적으로 커뮤니티 주도 데이터 표준은 시행이 필요하지 않으므로 가치 피라미드의 습관 형성 측면을 완전히 준수하고 FAIR의 상호 운용성 및 접근성 원칙을 의미 있게 해결합니다.

Figure 5: Example of using H3 to express flight holding patterns

Databricks는 최근 동일한 가치 제안에 따라 H3 그리드 시스템에 대한 네이티브 지원을 발표했습니다. 커뮤니티에서 주도하는 일반적인 산업 표준을 채택하는 것이 습관 형성 및 상호 운용성을 제대로 추진하는 유일한 방법입니다. 이 진술을 강화하기 위해 CARTO, ESRI 및 Google과 같은 조직은 확장 가능한 GIS 시스템 설계를 위해 그리드 인덱스 시스템의 사용을 홍보해 왔습니다. 또한 Databricks Labs 프로젝트 Mosaic는 영국 정부에서 널리 사용되는 표준 그리드 인덱스 시스템인 영국 국가 그리드를 지원합니다. 그리드 인덱스 시스템은 지리 공간 데이터 처리의 확장성과 복잡한 문제(예: 그림 5 - H3를 사용한 비행 대기 패턴)에 대한 솔루션을 제대로 설계하는 데 중요합니다.

Geospatial data diversity

지리 공간 데이터 표준은 데이터 형식 표준화에 상당한 노력을 기울이며, 형식은 상호 운용성 및 재현성과 관련하여 가장 중요한 고려 사항 중 하나입니다. 또한 데이터 읽기가 복잡하면 단순성에 대해 이야기할 수 있을까요? 안타깝게도 지리 공간 데이터 형식은 일반적으로 복잡합니다. 데이터는 오픈 소스 및 공급업체별 형식을 포함하여 여러 형식으로 생성될 수 있기 때문입니다. 벡터 데이터만 고려하더라도 WKT, WKB, GeoJSON, 웹 CSV, CSV, Shape File, GeoPackage 등 다양한 형식으로 데이터를 받을 수 있습니다. 반면에 래스터 데이터를 고려하면 GeoTiff, netCDF, GRIB 또는 GeoDatabase와 같은 다양한 형식으로 데이터를 받을 수 있습니다. 형식에 대한 포괄적인 목록은 이 블로그를 참조하십시오.

지리 공간 데이터 도메인은 매우 다양하며 해결하는 사용 사례를 중심으로 수년에 걸쳐 유기적으로 성장해 왔습니다. 이러한 다양한 생태계를 통합하는 것은 엄청난 도전입니다. OGC(Open Geospatial Consortium)에서 Apache Parquet 및 해당 지리 공간 스키마 사양 GeoParquet로 표준화하려는 최근 노력은 올바른 방향으로 나아가는 단계입니다. 단순성은 확장 가능하고 강력한 제품을 설계하는 데 있어 핵심적인 측면 중 하나입니다. 통합은 단순성을 가져오고 생태계의 주요 마찰 지점 중 하나인 데이터 수집을 해결합니다. GeoParquet로 표준화하면 FAIR 데이터 및 가치 피라미드의 모든 측면을 해결하는 많은 가치를 얻을 수 있습니다.

Figure 6: Geoparquet as a geospatial standard data format

이미 복잡한 생태계에 또 다른 형식을 도입하는 이유는 무엇일까요? GeoParquet는 새로운 형식이 아닙니다. 이미 업계와 커뮤니티에서 널리 채택되어 사용되고 있는 Apache Parquet 형식에 대한 스키마 사양입니다. 기본 형식인 Parquet는 이진 열을 지원하고 임의의 데이터 페이로드를 저장할 수 있으며, 동시에 메타데이터를 데이터 페이로드와 함께 저장할 수 있는 구조화된 데이터 열을 지원합니다. 이는 상호 운용성과 재현성을 촉진하는 선택이 됩니다. 마지막으로, Delta Lake 형식은 parquet 위에 구축되었으며 ACID 속성을 테이블에 제공합니다. 형식의 ACID 속성은 재현성과 신뢰할 수 있는 결과에 매우 중요합니다. 또한 delta는 확장 가능한 데이터 공유 솔루션인 Delta Sharing에서 사용하는 형식입니다. Delta sharing은 Databricks를 사용하는 모든 퍼블릭 클라우드 간에 엔터프라이즈 규모의 데이터 공유를 가능하게 합니다(오픈 소스 빌딩 블록을 사용한 프라이빗 클라우드용 DIY 옵션 사용 가능). Delta sharing은 다른 제3자에게 데이터를 노출하기 위한 사용자 정의 REST API의 필요성을 완전히 추상화합니다. Delta에 저장된 모든 데이터 에셋(GeoParquet 스키마 사용)은 제어되고 관리되는 방식으로 외부 당사자에게 노출될 수 있는 데이터 제품이 자동으로 됩니다. Delta sharing은 보안 모범 사례를 염두에 두고 처음부터 구축되었습니다.

Figure 7: Delta sharing simplifying data access in the ecosystem

순환 데이터 경제

지속 가능성 도메인의 개념을 빌려, 순환 데이터 경제를 데이터가 폐기물과 불필요한 컴퓨팅 시간, 신뢰할 수 없는 통찰력 또는 데이터 오염에 기반한 편향된 조치와 같은 부정적인 영향을 최소화하면서 가치를 극대화하는 방식으로 수집, 공유 및 사용되는 시스템으로 정의할 수 있습니다. 재사용성은 이 고려 사항의 핵심 개념입니다. "바퀴를 재발명"하는 것을 어떻게 최소화할 수 있을까요? 야생에는 특정 사용 사례에 더 잘 맞도록 약간의 수정만 가한 동일한 영역, 동일한 개념을 나타내는 수많은 데이터 에셋이 있습니다. 이것이 실제 최적화 때문일까요, 아니면 기존 에셋을 재사용하는 것보다 새 복사본을 만드는 것이 더 쉬웠기 때문일까요? 아니면 기존 데이터 에셋을 찾기 너무 어려웠거나 데이터 액세스 패턴을 정의하기 너무 복잡했기 때문일까요?

데이터 에셋 중복은 FAIR 고려 사항과 데이터 가치 피라미드 고려 사항 모두에서 많은 부정적인 측면을 가지고 있습니다. 동일한 영역과 동일한 개념을 나타내는 유사하지만 다른 수많은 분산된 데이터 에셋을 보유하는 것은 데이터 도메인의 단순성 고려 사항을 저하시킬 수 있습니다. 신뢰할 수 있는 데이터 에셋을 식별하기 어렵게 됩니다. 또한 습관 형성에도 매우 부정적인 영향을 미칠 수 있습니다. 많은 틈새 커뮤니티가 더 넓은 생태계의 모범 사례를 무시하고 자체적으로 표준화하거나, 더 나쁘게는 전혀 표준화하지 않을 것입니다.

순환 데이터 경제에서 데이터는 새로운 제품과 서비스를 만드는 데 사용될 수 있는 귀중한 리소스로 취급되며, 기존 제품과 서비스도 개선됩니다. 이 접근 방식은 데이터를 폐기 가능한 상품으로 취급하는 대신 데이터의 재사용 및 재활용을 장려합니다. 다시 한번, 우리는 지속 가능성 비유를 문자 그대로 사용합니다. 이것이 문제에 접근하는 올바른 방법이라고 주장합니다. 데이터 오염은 조직 내부 및 외부 모두에 실질적인 문제입니다. The Guardian의 기사에 따르면 수집된 데이터의 1% 미만이 실제로 분석됩니다. 데이터 중복이 너무 많고, 대부분의 데이터에 액세스하기 어렵고, 실제 가치를 도출하는 것이 너무 번거롭습니다. 순환 데이터 경제는 모범 사례와 기존 데이터 에셋의 재사용을 촉진하여 더 넓은 데이터 생태계 전반에 걸쳐 일관된 해석과 통찰력을 제공합니다.

상호 운용성은 FAIR 데이터 원칙의 핵심 구성 요소이며, 상호 운용성에서 순환성에 대한 질문이 떠오릅니다. 데이터 활용과 데이터 재사용을 극대화하는 생태계를 어떻게 설계할 수 있을까요? 다시 한번, FAIR와 가치 피라미드가 답을 가지고 있습니다. 데이터의 검색 가능성은 데이터 재사용과 데이터 오염 해결의 핵심입니다. 쉽게 검색할 수 있는 데이터 에셋을 사용하면 약간의 수정만 가한 동일한 데이터 에셋을 여러 곳에서 다시 만드는 것을 피할 수 있습니다. 대신 쉽게 결합하고 재사용할 수 있는 데이터로 구성된 일관된 데이터 생태계를 얻을 수 있습니다. Databricks는 최근 Databricks Marketplace를 발표했습니다. 마켓플레이스의 아이디어는 DJ Patel의 데이터 제품에 대한 원래 정의와 일치합니다. 마켓플레이스는 데이터셋, 노트북, 대시보드 및 머신러닝 모델 공유를 지원합니다. 이러한 마켓플레이스의 핵심 빌딩 블록은 지리 공간 데이터를 포함한 모든 데이터를 공유하기 위한 확장 가능하고 유연하며 강력한 채널인 delta sharing의 개념입니다.

마켓플레이스에 포함될 확장 가능한 데이터 제품을 설계하는 것이 중요합니다. 각 데이터 제품의 가치 추가를 극대화하려면 FAIR 원칙과 제품 가치 피라미드를 강력하게 고려해야 합니다. 이러한 지침 원칙 없이는 현재 시스템에 이미 존재하는 문제만 증가시킬 것입니다. 각 데이터 제품은 고유한 문제를 해결해야 하며, 간단하고 재현 가능하며 강력한 방식으로 해결해야 합니다.

Databricks Lakehouse Platform이 데이터 제품의 가치 실현 시간을 단축하는 데 어떻게 도움이 되는지에 대해 전자책 - 데이터 공유에 대한 새로운 접근 방식에서 더 자세히 읽어볼 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)