(번역: Leah Seo) Original Blog Post
PySpark는 언제나 데이터 쿼리를 위한 훌륭한 SQL 및 Python API를 제공해 왔습니다. Databricks Runtime 12.1 과 Apache Spark 3.4부터 매개변수화 쿼리는 Python 프로그래밍 패러다임을 사용하여 SQL로 데이터를 쿼리하는 안전하고 효과적인 방법을 지원합니다.
이 글에서는 PySpark로 매개변수화 쿼리를 만드는 방법과 이러한 디자인 패턴이 어떠한 경우에 적합한지 설명합니다.
매개변수는 Spark 코드를 더 쉽게 재사용하고 테스트하는 데 유용합니다. 또한 좋은 코딩 관행을 장려합니다. 이 글에서는 PySpark 쿼리에 매개변수화 쿼리를 사용하는 두 가지 방법에 대해 설명합니다:
- PySpark 사용자 지정 문자열 서식 (custom string formatting)
- 매개변수 마커 (Parameter markers)