์์ฑ์: ์ธ๋๋ผ์งํธ ๋ก์ด
Databricks๋ ๋ฐ์ดํฐ ๋ฐ AI ๋ถ์ผ์์ ๊ฐ๋ฅํ ๊ฒ์ ํ๊ณ๋ฅผ ์ง์์ ์ผ๋ก ๋ํ๋ฉฐ ์์ง๋์ด๋ง ํ์ ์ ์ ๋ํ๊ณ ์์ต๋๋ค. Spark Declarative Pipelines์ ๋ํ ์ ํฌ์ ์์ ์ด SIGMOD 2026์์ ์๊ฐ๋ ์์ ์ด๋ฉฐ, ํด๋น ์์ ์ด ํํ์์ ์ฐ์ ๋ ผ๋ฌธ์(honorable mention award)์ ์์ํ๊ฒ ๋์์์ ๋ฐํํ๊ฒ ๋์ด ๊ธฐ์ฉ๋๋ค. ์ ํฌ๋ ๋ค๊ฐ์ค๋ 6์ 1์ผ๋ถํฐ 5์ผ๊น์ง ํ๋ํฐ๋ ์คํฐ์๋ก SIGMOD์ ์ฐธ๊ฐํฉ๋๋ค. SIGMOD๋ ์ธ๋ ๋ฐฉ๊ฐ๋ก๋ฅด์์ ๊ฐ์ต๋ ์์ ์ด๋ฉฐ, ์ด๊ณณ์ Databricks์ ์ฃผ์ R&D ํ๋ธ์ด๊ธฐ๋ ํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ๋ํ ์ ํฌ์ ์ต์ ๋ ผ๋ฌธ๋ค์ Databricks๊ฐ ๊ณ ๊ฐ์ ์ํด ์ ์ง์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ด๋ป๊ฒ ๊ฐ์ํํ๋์ง ๋ณด์ฌ์ค๋๋ค. Spark Declarative Pipelines(SDP)์์ ์ ์ง์ ํ๋ก๊ทธ๋จ์ ์์ฑํ๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ, ๊ณ ๊ฐ์ ํ์ดํ๋ผ์ธ ๋ด์์ ์ด ๋ ๊ฐ์ง๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค:
Enzyme ๋
ผ๋ฌธ๊ณผ ํ์ด ์์
ํด ์จ ๋ด์ฉ์ ๋ํ ๋ฏธ๋ฆฌ๋ณด๊ธฐ๋ฅผ ํ์ธํด ๋ณด์ธ์:
ํ์ฌ์์ ๋ถ์๊ฐ๋ผ๊ณ ๊ฐ์ ํด ๋ด ์๋ค. ํน์ ์ง์ญ์์ ํ๋งค๋ ์ด ์ฃผ๋ฌธ ์๋ฅผ ๋ถ์ํ๊ณ ์ถ์ต๋๋ค. ์๋์ materialized view๊ฐ ๋ต์ ์ ๊ณตํฉ๋๋ค.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
์๋ก์ด ์ฃผ๋ฌธ์ด ์ถ๊ฐ๋จ์ ๋ฐ๋ผ materialized view๊ฐ ์ต์ ์ํ๋ก ์ ์ง๋๊ธฐ๋ฅผ ๊ธฐ๋ํ ๊ฒ์ ๋๋ค. ์ด ๋ฐ์ดํฐ ์ ์ง ๊ด๋ฆฌ๋ ๋ณธ์ง์ ์ผ๋ก ์ ์ง์ ๋ทฐ ์ ์ง ๊ด๋ฆฌ ๋ฌธ์ ์ ๋๋ค. ์์ ๊ฐ๋จํ MV๋ฅผ ์ต์ ์ํ๋ก ์ ์งํ๋ ๊ฒ์ ๊ฐ๋จํด ๋ณด์ด์ง๋ง, MV๊ฐ ์ฌ๋ฌ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์กฐ์ธํด์ผ ํ๊ฑฐ๋ ์ฐฝ ํจ์๊ฐ ํฌํจ๋์ด ์๊ฑฐ๋ LLM ํจ์๋ฅผ ํธ์ถํด์ผ ํ๋ค๊ณ ์์ํด ๋ณด์ธ์.
Materialized views(MVs)๋ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋์๋ณด๋๋ฅผ ๊ฐ์ํํ๋ ์ฟผ๋ฆฌ ๊ฐ์ํ์ ์ธ๊ธฐ๊ฐ ์์ต๋๋ค. Spark Declarative Pipelines๋ฅผ ์์ฑํ ๋, ์ ํฌ๋ ์ฟผ๋ฆฌ ๊ฐ์ํ๋ฅผ ๋์ด์ materialized views๋ฅผ extract-transform-load(ETL) ์ฌ์ฉ ์ฌ๋ก์ ์ ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ์ต๋๋ค. ์ ํฌ์ ํต์ฌ ๊ด์ฐฐ์ MV๋ฅผ ํจ์จ์ ์ด๊ณ ์ ์ง์ ์ผ๋ก ์ ์ง ๊ด๋ฆฌํ ์ ์๋ค๋ฉด, ๋ณต์กํ ์ฌ์ฉ์ ์ ์ ์ฝ๋๋ฅผ ์์ฑํด์ผ ํ๋ ETL ์ํฌ๋ก๋๋ฅผ ํฌ๊ฒ ๊ฐ์ํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
Enzyme์ ์ ์ง์ ์ผ๋ก materialized views๋ฅผ ์ ์ง ๊ด๋ฆฌํ๋ ํ๋ถํ ๋ฌธํ์ ๊ธฐ์ฌํ๋ฉฐ, ํ๋ก๋์ ์ํฌ๋ก๋์์ ์ด๋ฌํ ๊ธฐ์ ์ ํ์ฅํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค. ํ์ด ์์ ํ ํ์ ์ค ์ผ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:

๊ทธ๋ฆผ 1: Enzyme์ ๋ค๋ฅธ ๊ฒฝ์ ์ ๊ณ ์๋ฃจ์ (๋ผ์ด์ ์ค ์ ํ์ผ๋ก ์ธํด CV-IVM์ผ๋ก ์ต๋ช ์ฒ๋ฆฌ๋จ)๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๋ ์์ธํ ์๊ณ ์ถ์ผ์ ๊ฐ์? ๋ ผ๋ฌธ์ ํ์ธํ์๊ณ , SIGMOD์ ์ฐธ์ํ์ ๋ค๋ฉด ๋ ์์ธํ ๋ด์ฉ์ ์ํด ์ ํฌ ๋ฐํ์ ์ฐธ์ํด ์ฃผ์ธ์.
์ ํฌ ๋ถ์ค์ ๋ค๋ฌ ํ์ ๋ง๋๊ณ Databricks์์ ์งํ ์ค์ธ ํ์ ์ ๋ํด ์์ธํ ์์๋ณด์ธ์. ๋ํ, Ritwik Yadav์ SIGMOD ๋ฐํ๋ฅผ ์ง์ ๋ค์ ์ ์๋ ๊ธฐํ๋ฅผ ๋์น์ง ๋ง์ธ์!
(์ด ๊ธ์ AI์ ๋์์ ๋ฐ์ ๋ฒ์ญ๋์์ต๋๋ค. ์๋ฌธ์ด ๊ถ๊ธํ์๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ํด๋ฆญํด ์ฃผ์ธ์)
๋ธ๋ก๊ทธ๋ฅผ ๊ตฌ๋ ํ๊ณ ์ต์ ๊ฒ์๋ฌผ์ ์ด๋ฉ์ผ๋ก ๋ฐ์๋ณด์ธ์.