SAS에서 Databricks로의 마이그레이션을 자동화하세요
작성자: 드미트리 알키모프 , Aaron Zavora
거의 6년 동안 T1A는 Databricks와 파트너 관계를 맺고 엔터프라이즈의 데이터 플랫폼 현대화를 돕는 엔드투엔드 SAS-Databricks 마이그레이션 프로젝트를 진행해 왔습니다. 과거 SAS 플래티넘 파트너로서 저희는 SAS 엔진의 고유한 동작에서 비롯되는 플랫폼의 강점, 특이점, 숨겨진 문제점에 대해 깊이 이해하고 있습니다. 오늘날 이러한 레거시 전문성은 Databricks 챔피언팀과 전담 데이터 엔지니어링 프랙티스팀에 의해 보완되어, 'SAS'와 'Spark'를 모두 유창하게 구사할 수 있는 보기 드문 역량을 갖추게 되었습니다.
저희는 여정 초기에 반복되는 패턴을 관찰했습니다. 바로 기업들이 다양한 이유로 SAS에서 벗어나고 싶어 하지만 모든 마이그레이션 경로가 고통스럽거나 위험해 보이거나 둘 다라는 점이었습니다. 저희는 시장을 조사하고 여러 툴링 옵션을 시범 운영한 결과, 대부분의 솔루션 성능이 부족하며 SAS 마이그레이션을 'SQL 방언 전환' 정도로만 취급한다는 결론을 내렸습니다. 이러한 격차 때문에 자체 트랜스파일러를 구축하게 되었고, Alchemist 가 2022년에 처음 출시되었습니다.

Alchemist는 SAS에서 Databricks로의 마이그레이션을 자동화하는 강력한 도구입니다:
Alchemist는 저희의 모든 도구와 함께 더 이상 단순한 마이그레이션 가속기가 아니라, 저희 프로젝트의 핵심 엔진이자 마이그레이션 driver입니다.
그렇다면 Alchemist에 대해 더 자세히 알아볼까요?
무엇보다도 Alchemist는 단순한 트랜스파일러가 아니라 강력한 평가 및 분석 도구입니다. Alchemist Analyzer는 모든 코드 배치를 신속하게 파싱하고 검사하여 SAS 코드 특성에 대한 포괄적인 프로필을 생성합니다. 고객은 수 주에 걸쳐 수동으로 검토하는 대신, 단 몇 분 만에 코드 패턴과 복잡성에 대한 전체 그림을 파악할 수 있습니다.

분석 대시보드는 무료이며, 이제 두 가지 방법으로 사용할 수 있습니다.
이 분석은 마이그레이션 범위 크기에 대한 인사이트를 제공하고, 고유한 요소를 강조하며, 통합을 감지하고, 다양한 프로그래밍 패턴에 대한 팀의 선호도를 평가하는 데 도움이 됩니다. 또한 워크로드 유형을 분류하고, 자동화 변환율 예측을 도우며, 결과 품질 검증에 필요한 노력을 추정합니다.
Alchemist Analyzer는 단순히 개괄적으로 살펴보는 것 이상으로, 프로시저와 옵션이 사용되는 방식, 데이터 리니지, 코드 구성 요소 간의 상호 종속성을 보여주는 상세한 테이블 보기(DDS라고 부름)를 제공합니다.
이러한 세부 정보는 다음과 같은 질문에 대한 답을 찾는 데 도움이 됩니다.

Analyzer는 모든 종속성, 제어 흐름, 데이터 터치포인트를 노출하므로 코드를 제대로 이해할 수 있게 해주며, 이를 통해 자동화된 변환을 훨씬 뛰어넘는 작업을 수행할 수 있습니다. 결과를 검증할 위치를 정확히 찾아내고, 모놀리스를 의미 있는 마이그레이션 블록으로 나누고, 반복 가능한 패턴을 찾아내고, 엔드투엔드 테스트를 간소화할 수 있습니다. 이러한 기 능은 이미 여러 클라이언트 프로젝트에서 사용된 바 있습니다.
Alchemist의 기능에 대해 간략히 살펴보겠습니다.

Alchemist 트랜스파일러는 세 단계로 작동합니다.
모두 희망적으로 들리지만, 실제 마이그레이션 시나리오에서는 어떻게 나타날까요?
수백 개의 SAS Enterprise Guide 플로우를 Databricks로 이전한 최근 다중 사업부 마이그레이션의 몇 가지 지표를 공유해 보겠습니다. 이러한 플로우는 일상적인 보고 및 데이터 통합을 처리하고, 정기적인 비즈니스 점검을 수행했으며, 주로 분석팀에서 유지 관리했습니다. 일반적인 입력에는 텍스트 파일, XLSX 워크북, 다양한 RDBMS 테이블이 포함되었으며, 출력은 Excel/CSV 추출 파일 및 이메일 알림에서부터 매개변수화된 화면 요약에 이르기까지 다양했습니다. 마이그레이션은 Alchemist v2024.2로 실행되었습니다 (현재 사용 가능한 버전보다 이전 릴리스이므로) 오늘날의 사용자는 훨씬 더 높은 자동화율과 풍부한 결과 품질을 기대할 수 있습니다.
몇 가지 수치를 예로 들자면, 저희는 Alchemist로 마이그레이션된 30개의 무작위 EG 플로우의 일부에 대한 통계를 측정했습니다.
먼저 간단한 면책 조항부터 말씀드리겠습니다.
그 결과, 약 75%의 전환율과 약 90%의 정확도를 달성했습니다(흐름 단계의 90%가 변경 없이 검증 통과):
변환 상태 | % | 플로우 | 참고 |
100% 정확도로 완벽하게 자동 변환됩니다. | 33% | 10 | 문제 없음 |
완전히 변환되었으나 검증 시 데이터 불일치 발생 | 30% | 9 | 결과 데이터 유효성 검사 중 약간의 불일치가 발견되었습니다 |
부분적으로 변환됨 | 15% | 5 | 일부 단계가 변환되지 않았습니다(각 플로우의 20% 미만). |
변환 문제 | 22% | 6 | 준비 문제(예: 잘못된 매핑, 잘못된 데이터 소스 샘플, 손상되었거나 실행 불가능한 원본 EG 파일) 및 드문 명령문 유형 |
AI 기반 변환 기능이 탑재된 최신 Alchemist 버전을 통해 100%의 변환율을 달성했습니다. 그러나 AI가 제공한 결과 역시 정확도가 떨어진다는 동일한 문제가 있었습니다. 이로 인해 데이터 검증은 마이그레이션의 또 다른 난관이 됩니다.
참고로 성공적인 마이그레이션을 위해서는 코드, 객체 매핑 및 기타 구성에 대한 철저한 준비가 매우 중요하다는 점 을 강조하고 싶습니다. 손상된 코드, 잘못된 데이터 매핑, 데이터 소스 마이그레이션 문제, 오래된 코드 및 기타 준비 관련 문제들은 일반적으로 식별 및 분리가 어렵지만, 마이그레이션 일정에 상당한 영향을 미칩니다.
자동화된 AI 기반 코드 변환이 이제 '원클릭'에 가까워지면서 진짜 병목 현상은 비즈니스 검증 및 사용자 승인으로 옮겨갔습니다. 대부분의 경우 이 단계는 전체 마이그레이션 타임라인의 60~70%를 차지하며 프로젝트 리스크와 비용의 대부분을 유발합니다. 수년에 걸쳐 당사는 품질 저하 없이 '검증 단계'를 단축하기 위해 다양한 검증 기법, 프레임워크, 툴링을 실험해 왔습니다.
고객과 함께 직면하는 일반적인 비즈니스 과제는 다음과 같습니다.
다음 구성으로 결정했습니다.

당사는 속도와 유연성을 달성하기 위해 프레임워크, 스크립트, 템플릿으로 이 프로세스를 지원합니다. 각 마이그레이션은 환경, 요구 사항, 고객 참여 수준이 모두 다르므로 당사는 "즉시 사용 가능한" 제품을 만들려고 하지 않습니다. 하지만 설치와 구성은 빨라야 합니다.

Alchemist의 기술적 정교함과 저희의 입증된 방법론의 결합은 거의 100%에 달하는 변환 자동화율, 검증 및 배포 시간 70% 단축 등 지속적으로 측정 가능한 결과를 제공해 왔습니다.
모든 마이그레이션 솔루션의 진정한 척도는 기능이 아니라 고객 운영에 미치는 실제 영향에 있습니다. T1A에서는 마이그레이션의 기술적인 측면 그 이상에 중점을 둡니다. 당사는 코드가 변환되고 테스트되었다고 해서 마이그레이션이 끝나는 것이 아님을 알고 있습니다. 모든 비즈니스 프로세스가 마이그레이션되어 새 플랫폼의 데이터를 사용하고, 비즈니스 사용자가 온보딩되고, Databricks 환경에서의 작업을 이미 활용하고 있을 때 비로소 마이그레이션이 완료됩니다. 그렇기 때문에 당사는 마이그레이션뿐만 아니라 더 원활한 고객 온보딩을 위해 전문가를 통해 다음과 같은 고급 마이그레이션 후 프로젝트 지원을 제공합니다.
포괄적인 코드 분석 및 자동화된 트랜스파일링부터 AI 기반 검증 프레임워크, 마이그레이션 후 지원에 이르기까지, 이 모든 매개변수화된 기능들은 여러 엔터프라이즈 마이그레이션에서 실전 테스트를 거쳤습니다. 저희는 전문 지식을 여러분과 공유할 준비가 되었습니다.
자, 이제 요약해 보겠습니다. 지난 몇 년 동안 저희는 고유한 과제, 규제 요건, 비즈니스에 중요한 워크로드를 가진 다양한 의료 및 보험 기관에 이 통합 접근 방식을 적용해 왔습니다.

저희는 학습과 도구 개발, 접근 방식 개선을 거듭해 왔으며, 이제 여러분과 저희의 비전과 방법론을 공유하고자 합니다. 여기에서 저희 프로젝트의 참고 자료 일부를 확인하실 수 있으며, 요청 시 더 많은 자료를 공유해 드릴 수 있습니다.
클라이언트 | 날짜 | 프로젝트 설명 |
베네룩스 주요 건강 보험 회사 | 2022 - 현재 | Alchemist를 사용한 SAS에서 Databricks로의 전사적 EDWH 마이그레이션. 반복적인 작업(1600 ETL 작업)에 대해 80% 자동화율을 갖춘 마이그레이션 접근 방식 도입. 변환 및 마이그레이션 프로세스가 진행 중인 비즈니스 운영과 공존할 수 있도록 마이그레이션 인프라 설계 및 구현. 당사의 자동화된 테스트 프레임워크는 UAT 시 간을 70% 단축했습니다. |
미국 건강 보험 회사 | 2023년 | Alchemist를 사용하여 온프레미스 SAS EG의 분석 보고를 Azure Databricks로 마이그레이션했습니다. T1A는 Alchemist를 활용하여 분석, 코드 마이그레이션, 내부 테스트를 가속화했습니다. T1A는 Unity Catalog가 활성화된 Databricks를 위한 Azure 서비스 구성, 대상 플랫폼에 대한 사용자 온보딩 및 교육, 최종 사용자의 원활한 전환을 보장하기 위한 마이그레이션 프로세스 간소화 등의 컨설팅 서비스를 제공했습니다. |
일본 헬스케어 기업 | 2023 - 2025 | 온프레미스 SAS EG에서 Azure Databricks로 분석 보고서 마이그레이션. T1A는 Alchemist를 활용하여 분석, 코드 마이그레이션, 내부 테스트를 신속하게 처리했습니다. 저희는 데이터 마트 설정, 아키텍처 설계, 클라우드 기능 활성화뿐만 아니라 보고를 지원하기 위해 150개 이상의 데이터 피드 파이프라인을 구축했습니다. Unity Catalog가 활성화된 Databricks를 위해 선택한 Azure 서비스를 구성하기 위한 컨설팅 서비스를 제공했으며, 대상 플랫폼에 대한 사용자 활성화 및 교육을 제공했습니다. |
PacificSource Health Plans, 미국 | 2024 - 현재 | SAS 기반 ETL 매개변수화된 워크플로(스크립트 70개)와 SAS 분석 데이터 마트를 Databricks로 마이그레이션하여 클라이언트의 레거시 분석 인프라를 현대화했습니다. 데이터 마트 새로 고침 시간을 95% 단축하고, 표준 PySpark 코드 언어를 사용하여 인재 풀에 대한 접근성을 확대했으 며, GenAI 지원 및 바이브 코딩(vibe coding)을 활성화하고, 신뢰성 향상을 위해 Git 및 CI/CD를 개선했으며, SAS 사용 공간을 크게 줄이고 SAS 라이선스 비용을 절감했습니다. |
저희는 이제 막 에이전틱 접근 방식을 도입하기 시작했지만, 반복적인 활동을 자동화하는 데 있어 그 잠재력을 인식하고 있습니다. 여기에는 구성 및 매핑 준비, 코드의 전체 커버리지를 달성하기 위한 맞춤형 테스트 데이터 생성, 아키텍처 규칙을 충족하기 위한 템플릿 자동 생성 등 여러 아이디어가 포함됩니다.
다른 한편으로, 현재의 AI 기능은 특정 고도로 복잡한 작업과 시나리오를 처리하기에는 아직 충분히 성숙하지 않은 것으로 보입니다. 따라서 저희는 AI와 프로그래밍 방식 방법론이 만나는 지점에서 가장 효과적인 발전 방향을 찾을 수 있다고 예상합니다.
다음 웨비나에 참여하세요 - "SAS 마이그레이션 모범 사례: 20개 이상의 엔터프라이즈 프로젝트의교훈" →
Databricks로의 전체 주기 마이그레이션을 통해 얻은 교훈, 향후 계획, 모범 사례를 자세히 공유해 드립니다. 또는 마이그레이션 접근 방식 데모를 시청하시거나 → 저희 채널에서 마이그레이션 관련 여러 다른 자료를 확인해 보세요.
SAS 코드를 업로드하여 즉각적이고 포괄적인 분석을 받아보세요. 마이그레이션 복잡성을 파악하고, 빠른 성공 사례를 식별하고, 가입 없이 완전 무료로 자동화된 규모 추정치를 받아보세요.
마이그레이션 준비가 완료된 조직([email protected]):
전략 컨설팅 예약 - 분석 결과를 검토하고 맞춤형 마이그레이션 로드맵의 초안을 작성하는 45분 세션
PoC(기술 검증) 요청 - 가장 중요한 워크플로에 대한 파일럿 마이그레이션을 통해 당사의 접근 방식을 검증하세요
초기 단계 계획:
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.