주요 컨텐츠로 이동

Alchemist: Brickbuilder에서 Databricks 마켓플레이스 앱으로

SAS에서 Databricks로의 마이그레이션을 자동화하세요

Alchemist SAS to Databricks Migrations

Published: January 21, 2026

의료 및 생명 공학Less than a minute

Summary

  • Alchemist는 심층적인 레거시 전문 지식과 최신 AI 기능을 결합한 포괄적인 SAS-to-Databricks 마이그레이션 가속기입니다.
  • 이 솔루션은 코드 복잡성과 종속성에 대한 상세한 인사이트를 제공하는 분석기(Analyzer) 역할과, 대규모 언어 모델(LLM)을 사용하여 SAS EG 및 .spk 같은 형식에서 PySpark로 거의 100%에 가까운 코드 변환을 달성하는 트랜스파일러(Transpiler) 역할을 모두 수행합니다.
  • Alchemist는 기업이 코드를 현대화할 뿐만 아니라 비즈니스 프로세스와 팀을 Databricks 플랫폼으로 신속하게 성공적으로 전환할 수 있도록 보장합니다.

거의 6년 동안 T1A는 Databricks와 파트너 관계를 맺고 엔터프라이즈의 데이터 플랫폼 현대화를 돕는 엔드투엔드 SAS-Databricks 마이그레이션 프로젝트를 진행해 왔습니다. 과거 SAS 플래티넘 파트너로서 저희는 SAS 엔진의 고유한 동작에서 비롯되는 플랫폼의 강점, 특이점, 숨겨진 문제점에 대해 깊이 이해하고 있습니다. 오늘날 이러한 레거시 전문성은 Databricks 챔피언팀과 전담 데이터 엔지니어링 프랙티스팀에 의해 보완되어, 'SAS'와 'Spark'를 모두 유창하게 구사할 수 있는 보기 드문 역량을 갖추게 되었습니다.

저희는 여정 초기에 반복되는 패턴을 관찰했습니다. 바로 기업들이 다양한 이유로 SAS에서 벗어나고 싶어 하지만 모든 마이그레이션 경로가 고통스럽거나 위험해 보이거나 둘 다라는 점이었습니다. 저희는 시장을 조사하고 여러 툴링 옵션을 시범 운영한 결과, 대부분의 솔루션 성능이 부족하며 SAS 마이그레이션을 'SQL 방언 전환' 정도로만 취급한다는 결론을 내렸습니다. 이러한 격차 때문에 자체 트랜스파일러를 구축하게 되었고, Alchemist 가 2022년에 처음 출시되었습니다.

Alchemist는 SAS에서 Databricks로의 마이그레이션을 자동화하는 강력한 도구입니다

Alchemist는 SAS에서 Databricks로의 마이그레이션을 자동화하는 강력한 도구입니다: 

  • SAS를 분석하고 코드를 파싱하여 모든 수준에서 상세한 인사이트를 제공하고, 기본적인 프로파일러가 남긴 격차를 해소하여 워크로드를 명확하게 이해할 수 있도록 지원합니다
  • SAS 코드를 Databricks로 변환하며, 당사 아키텍트와 Databricks 챔피언이 설계한 모범 사례를 사용하여 불필요한 복잡성 없이 깔끔하고 가독성 좋은 코드를 제공합니다.
  • 지원 : .sas 파일 형식의 SAS 코드, SAS EG 프로젝트 파일, .spk 포맷의 SAS DI 작업 등 모든 일반적인 포맷을 지원하며, 코드와 가치 있는 메타데이터를 모두 추출합니다
  • 사용자 정의 템플릿 함수를 사용하여 가장 엄격한 아키텍처 요구사항까지 충족하는 유연하고 구성 가능한 결과를 제공합니다.
  • AI LLM 기능을 통합하여 비정형 코드 구조에서도 모든 파일에서 100% 전환율을 달성합니다.
  • 프레임워크 또는 CI/CD 파이프라인과 쉽게 통합되어 분석부터 최종 검증 및 배포까지 전체 마이그레이션 흐름을 자동화합니다.

Alchemist는 저희의 모든 도구와 함께 더 이상 단순한 마이그레이션 가속기가 아니라, 저희 프로젝트의 핵심 엔진이자 마이그레이션 driver입니다.

그렇다면 Alchemist에 대해 더 자세히 알아볼까요?

Alchemist 분석기 

무엇보다도 Alchemist는 단순한 트랜스파일러가 아니라 강력한 평가 및 분석 도구입니다. Alchemist Analyzer는 모든 코드 배치를 신속하게 파싱하고 검사하여 SAS 코드 특성에 대한 포괄적인 프로필을 생성합니다. 고객은 수 주에 걸쳐 수동으로 검토하는 대신, 단 몇 분 만에 코드 패턴과 복잡성에 대한 전체 그림을 파악할 수 있습니다.

분석 대시보드는 무료이며, 이제 두 가지 방법으로 사용할 수 있습니다.

이 분석은 마이그레이션 범위 크기에 대한 인사이트를 제공하고, 고유한 요소를 강조하며, 통합을 감지하고, 다양한 프로그래밍 패턴에 대한 팀의 선호도를 평가하는 데 도움이 됩니다. 또한 워크로드 유형을 분류하고, 자동화 변환율 예측을 도우며, 결과 품질 검증에 필요한 노력을 추정합니다.

Alchemist Analyzer는 단순히 개괄적으로 살펴보는 것 이상으로, 프로시저와 옵션이 사용되는 방식, 데이터 리니지, 코드 구성 요소 간의 상호 종속성을 보여주는 상세한 테이블 보기(DDS라고 부름)를 제공합니다. 

이러한 세부 정보는 다음과 같은 질문에 대한 답을 찾는 데 도움이 됩니다.

  • 개선 사항을 신속하게 입증하기 위해 MVP로 어떤 사용 사례를 선택해야 할까요?
  • 코드 마이그레이션의 우선순위를 어떻게 정해야 할까요? 예를 들어, 자주 사용하는 데이터를 먼저 마이그레이션해야 할까요, 아니면 중요한 데이터 생산자를 우선시해야 할까요?
  • 특정 매크로를 리팩토링하거나 소스 구조를 변경하면 다른 어떤 코드 세그먼트가 영향을 받을까요?
  • 디스크 공간을 확보하거나 비용이 많이 드는 SAS 구성 요소 사용을 중지하려면 먼저 어떤 조치를 취해야 합니까?

Analyzer는 모든 종속성, 제어 흐름, 데이터 터치포인트를 노출하므로 코드를 제대로 이해할 수 있게 해주며, 이를 통해 자동화된 변환을 훨씬 뛰어넘는 작업을 수행할 수 있습니다. 결과를 검증할 위치를 정확히 찾아내고, 모놀리스를 의미 있는 마이그레이션 블록으로 나누고, 반복 가능한 패턴을 찾아내고, 엔드투엔드 테스트를 간소화할 수 있습니다. 이러한 기능은 이미 여러 클라이언트 프로젝트에서 사용된 바 있습니다.

Alchemist 트랜스파일러

Alchemist의 기능에 대해 간략히 살펴보겠습니다.

  • 소스: SAS EG 프로젝트(.egp), SAS 기본 코드(.sas), SAS DI 잡(.spk)
  • 대상: Databricks 노트북, PySpark Python 코드, Prophecy 파이프라인 등
  • 적용 범위: SQL, 일반적인 프로시저 및 변환, 데이터 단계, 매크로 코드에 대해 거의 100%에 달하는 적용 범위와 정확도를 보장합니다.
  • LLM을 사용한 변환 후 작업: 문제가 있는 구문을 식별하고 LLM을 사용하여 최종 코드를 개선하도록 조정합니다.
  • 템플릿: 리팩토링 또는 대상 아키텍처 비전을 충족하도록 변환기 동작을 재정의하는 기능.

Alchemist 트랜스파일러는 세 단계로 작동합니다.

  1. 코드 파싱: 코드는 로직을 완벽하게 설명하는 상세한 추상 구문 트리(AST)로 파싱됩니다.
  2. 코드 재구성: 대상 언어(dialect)에 따라 각 AST 노드에 특정 규칙이 적용되어 대상 엔진에서 변환을 단계별로 코드로 다시 재구성합니다.
  3. 결과 분석 및 개선: 결과가 분석됩니다. 문장에서 오류가 발생하면 LLM을 사용하여 변환할 수 있습니다. 이 과정에는 사용된 테이블, 계산 컨텍스트, 코드 요구사항에 대한 모든 관련 메타데이터와 함께 원본 문장을 제공하는 작업이 포함됩니다.

모두 희망적으로 들리지만, 실제 마이그레이션 시나리오에서는 어떻게 나타날까요? 

수백 개의 SAS Enterprise Guide 플로우를 Databricks로 이전한 최근 다중 사업부 마이그레이션의 몇 가지 지표를 공유해 보겠습니다. 이러한 플로우는 일상적인 보고 및 데이터 통합을 처리하고, 정기적인 비즈니스 점검을 수행했으며, 주로 분석팀에서 유지 관리했습니다. 일반적인 입력에는 텍스트 파일, XLSX 워크북, 다양한 RDBMS 테이블이 포함되었으며, 출력은 Excel/CSV 추출 파일 및 이메일 알림에서부터 매개변수화된 화면 요약에 이르기까지 다양했습니다. 마이그레이션은 Alchemist v2024.2로 실행되었습니다 (현재 사용 가능한 버전보다 이전 릴리스이므로) 오늘날의 사용자는 훨씬 더 높은 자동화율과 풍부한 결과 품질을 기대할 수 있습니다.

몇 가지 수치를 예로 들자면, 저희는 Alchemist로 마이그레이션된 30개의 무작위 EG 플로우의 일부에 대한 통계를 측정했습니다.

먼저 간단한 면책 조항부터 말씀드리겠습니다.

  1. 전환율이란 databricks에서 실행 가능한 코드로 자동 변환된 원본 코드의 비율을 의미합니다. 그러나 이 변환의 실제 정확도는 데이터에 대한 테스트를 실행하고 결과를 검증한 후에만 확인할 수 있습니다.
  2. 지표는 이전 Alchemist 버전을 기준으로 수집되며 템플릿 없이 추가 구성 및 LLM 사용이 비활성화되었습니다. 

그 결과, 약 75%의 전환율과 약 90%의 정확도를 달성했습니다(흐름 단계의 90%가 변경 없이 검증 통과):

변환 상태

%

플로우 

참고

100% 정확도로 완벽하게 자동 변환됩니다.

33%

10

문제 없음

완전히 변환되었으나 검증 시 데이터 불일치 발생

30%

9

결과 데이터 유효성 검사 중 약간의 불일치가 발견되었습니다

부분적으로 변환됨

15%

5

일부 단계가 변환되지 않았습니다(각 플로우의 20% 미만).

변환 문제

22%

6

준비 문제(예: 잘못된 매핑, 잘못된 데이터 소스 샘플, 손상되었거나 실행 불가능한 원본 EG 파일) 및 드문 명령문 유형

AI 기반 변환 기능이 탑재된 최신 Alchemist 버전을 통해 100%의 변환율을 달성했습니다. 그러나 AI가 제공한 결과 역시 정확도가 떨어진다는 동일한 문제가 있었습니다. 이로 인해 데이터 검증은 마이그레이션의 또 다른 난관이 됩니다.

참고로 성공적인 마이그레이션을 위해서는 코드, 객체 매핑 및 기타 구성에 대한 철저한 준비가 매우 중요하다는 점을 강조하고 싶습니다. 손상된 코드, 잘못된 데이터 매핑, 데이터 소스 마이그레이션 문제, 오래된 코드 및 기타 준비 관련 문제들은 일반적으로 식별 및 분리가 어렵지만, 마이그레이션 일정에 상당한 영향을 미칩니다.

데이터 검증 워크플로 및 에이전틱 접근 방식

자동화된 AI 기반 코드 변환이 이제 '원클릭'에 가까워지면서 진짜 병목 현상은 비즈니스 검증 및 사용자 승인으로 옮겨갔습니다. 대부분의 경우 이 단계는 전체 마이그레이션 타임라인의 60~70%를 차지하며 프로젝트 리스크와 비용의 대부분을 유발합니다. 수년에 걸쳐 당사는 품질 저하 없이 '검증 단계'를 단축하기 위해 다양한 검증 기법, 프레임워크, 툴링을 실험해 왔습니다.

고객과 함께 직면하는 일반적인 비즈니스 과제는 다음과 같습니다.

  • 프로젝트 범위를 확장하지 않고 품질을 보장하려면 얼마나 많은 테스트가 필요할까요?
  • 반복 가능하고 결정적인 상태를 유지하면서 변환의 품질만 측정하도록 테스트 격리를 어떻게 달성할 수 있을까요? “동일 조건” 비교.
  • 전체 루프 자동화: 테스트 준비, 실행, 결과 분석, 수정
  • 불일치를 유발하는 정확한 단계, 테이블 또는 함수를 찾아내어 엔지니어가 문제를 한 번에 해결하고 다음으로 넘어가도록 지원

다음 구성으로 결정했습니다. 

  • 자동 테스트 생성 SAS에서 자동으로 수집된 실제 데이터 샘플 기반
  • 격리된 4단계 테스트:
    • 유닛 테스트 - 변환된 각 구문에 대한 격리된 테스트
    • E2E 테스트 - SAS에서 복사한 데이터를 사용한 파이프라인 또는 노트북의 전체 테스트
    • 실제 소스 검증 - 대상 소스를 사용하여 테스트 환경에서 전체 테스트 수행
    • 프로덕션 유사 테스트 - 실제 소스를 사용하여 프로덕션과 유사한 환경에서 성능 측정, 배포 검증, 결과 통계 측정항목 수집, 여러 사용 시나리오 실행을 위한 전체 테스트
  • “바이브 테스팅” - AI 에이전트는 단위 테스트와 E2E 테스트를 수정하고 조정하는 데 좋은 성능을 보였습니다. 이는 제한된 컨텍스트, 빠른 검증 결과, 데이터 샘플링을 통한 반복성 때문입니다. 하지만 깊은 전문 지식과 경험이 필요한 마지막 두 단계에서는 에이전트가 그다지 도움이 되지 않았습니다.
  • 보고서. 결과는 주요 이해관계자가 신속하게 검토할 수 있도록 명확하고 재현 가능한 보고서로 통합되어야 합니다. 이들은 일반적으로 마이그레이션된 코드를 검증할 시간이 많지 않으며, 전체 사용 사례를 수용하고 테스트할 준비만 되어 있습니다.

당사는 속도와 유연성을 달성하기 위해 프레임워크, 스크립트, 템플릿으로 이 프로세스를 지원합니다. 각 마이그레이션은 환경, 요구 사항, 고객 참여 수준이 모두 다르므로 당사는 "즉시 사용 가능한" 제품을 만들려고 하지 않습니다. 하지만 설치와 구성은 빨라야 합니다. 

Alchemist의 기술적 정교함과 저희의 입증된 방법론의 결합은 거의 100%에 달하는 변환 자동화율, 검증 및 배포 시간 70% 단축 등 지속적으로 측정 가능한 결과를 제공해 왔습니다. 

마이그레이션 마무리

모든 마이그레이션 솔루션의 진정한 척도는 기능이 아니라 고객 운영에 미치는 실제 영향에 있습니다. T1A에서는 마이그레이션의 기술적인 측면 그 이상에 중점을 둡니다. 당사는 코드가 변환되고 테스트되었다고 해서 마이그레이션이 끝나는 것이 아님을 알고 있습니다. 모든 비즈니스 프로세스가 마이그레이션되어 새 플랫폼의 데이터를 사용하고, 비즈니스 사용자가 온보딩되고, Databricks 환경에서의 작업을 이미 활용하고 있을 때 비로소 마이그레이션이 완료됩니다. 그렇기 때문에 당사는 마이그레이션뿐만 아니라 더 원활한 고객 온보딩을 위해 전문가를 통해 다음과 같은 고급 마이그레이션 후 프로젝트 지원을 제공합니다.

  • 데이터 플랫폼을 위한 맞춤형 모니터링
  • 다양한 청중에게 맞춤화된 교육 워크숍
  • 기술 및 비즈니스 사용자 요청을 처리하기 위한 유연한 참여 수준의 팀 지원
  • 모범 사례 공유 워크숍
  • 귀사 내 전문 기술 센터 구축 지원.

포괄적인 코드 분석 및 자동화된 트랜스파일링부터 AI 기반 검증 프레임워크, 마이그레이션 후 지원에 이르기까지, 이 모든 매개변수화된 기능들은 여러 엔터프라이즈 마이그레이션에서 실전 테스트를 거쳤습니다. 저희는 전문 지식을 여러분과 공유할 준비가 되었습니다. 

성공 사례

자, 이제 요약해 보겠습니다. 지난 몇 년 동안 저희는 고유한 과제, 규제 요건, 비즈니스에 중요한 워크로드를 가진 다양한 의료 및 보험 기관에 이 통합 접근 방식을 적용해 왔습니다.

저희는 학습과 도구 개발, 접근 방식 개선을 거듭해 왔으며, 이제 여러분과 저희의 비전과 방법론을 공유하고자 합니다. 여기에서 저희 프로젝트의 참고 자료 일부를 확인하실 수 있으며, 요청 시 더 많은 자료를 공유해 드릴 수 있습니다. 

클라이언트

날짜

프로젝트 설명

베네룩스 주요 건강 보험 회사

2022 - 현재

Alchemist를 사용한 SAS에서 Databricks로의 전사적 EDWH 마이그레이션. 반복적인 작업(1600 ETL 작업)에 대해 80% 자동화율을 갖춘 마이그레이션 접근 방식 도입. 변환 및 마이그레이션 프로세스가 진행 중인 비즈니스 운영과 공존할 수 있도록 마이그레이션 인프라 설계 및 구현. 당사의 자동화된 테스트 프레임워크는 UAT 시간을 70% 단축했습니다.

미국 건강 보험 회사

2023년

Alchemist를 사용하여 온프레미스 SAS EG의 분석 보고를 Azure Databricks로 마이그레이션했습니다. T1A는 Alchemist를 활용하여 분석, 코드 마이그레이션, 내부 테스트를 가속화했습니다. T1A는 Unity Catalog가 활성화된 Databricks를 위한 Azure 서비스 구성, 대상 플랫폼에 대한 사용자 온보딩 및 교육, 최종 사용자의 원활한 전환을 보장하기 위한 마이그레이션 프로세스 간소화 등의 컨설팅 서비스를 제공했습니다.

일본 헬스케어 기업

2023 - 2025

온프레미스 SAS EG에서 Azure Databricks로 분석 보고서 마이그레이션. T1A는 Alchemist를 활용하여 분석, 코드 마이그레이션, 내부 테스트를 신속하게 처리했습니다. 저희는 데이터 마트 설정, 아키텍처 설계, 클라우드 기능 활성화뿐만 아니라 보고를 지원하기 위해 150개 이상의 데이터 피드 파이프라인을 구축했습니다. Unity Catalog가 활성화된 Databricks를 위해 선택한 Azure 서비스를 구성하기 위한 컨설팅 서비스를 제공했으며, 대상 플랫폼에 대한 사용자 활성화 및 교육을 제공했습니다. 

PacificSource Health Plans, 미국

2024 - 현재

SAS 기반 ETL 매개변수화된 워크플로(스크립트 70개)와 SAS 분석 데이터 마트를 Databricks로 마이그레이션하여 클라이언트의 레거시 분석 인프라를 현대화했습니다. 데이터 마트 새로 고침 시간을 95% 단축하고, 표준 PySpark 코드 언어를 사용하여 인재 풀에 대한 접근성을 확대했으며, GenAI 지원 및 바이브 코딩(vibe coding)을 활성화하고, 신뢰성 향상을 위해 Git 및 CI/CD를 개선했으며, SAS 사용 공간을 크게 줄이고 SAS 라이선스 비용을 절감했습니다. 

다음 단계는 무엇일까요?

저희는 이제 막 에이전틱 접근 방식을 도입하기 시작했지만, 반복적인 활동을 자동화하는 데 있어 그 잠재력을 인식하고 있습니다. 여기에는 구성 및 매핑 준비, 코드의 전체 커버리지를 달성하기 위한 맞춤형 테스트 데이터 생성, 아키텍처 규칙을 충족하기 위한 템플릿 자동 생성 등 여러 아이디어가 포함됩니다.

다른 한편으로, 현재의 AI 기능은 특정 고도로 복잡한 작업과 시나리오를 처리하기에는 아직 충분히 성숙하지 않은 것으로 보입니다. 따라서 저희는 AI와 프로그래밍 방식 방법론이 만나는 지점에서 가장 효과적인 발전 방향을 찾을 수 있다고 예상합니다.

다음 웨비나에 참여하세요 - "SAS 마이그레이션 모범 사례: 20개 이상의 엔터프라이즈 프로젝트교훈"

Databricks로의 전체 주기 마이그레이션을 통해 얻은 교훈, 향후 계획, 모범 사례를 자세히 공유해 드립니다. 또는 마이그레이션 접근 방식 데모를 시청하시거나 → 저희 채널에서 마이그레이션 관련 여러 다른 자료를 확인해 보세요.

SAS 마이그레이션을 가속화할 준비가 되셨나요?

리스크 없이 시작하세요 - 지금 무료 평가를 받아보세요

몇 분 만에 SAS 환경 분석하기 →

SAS 코드를 업로드하여 즉각적이고 포괄적인 분석을 받아보세요. 마이그레이션 복잡성을 파악하고, 빠른 성공 사례를 식별하고, 가입 없이 완전 무료로 자동화된 규모 추정치를 받아보세요.

다음 단계 수행

마이그레이션 준비가 완료된 조직([email protected]):

  • 전략 컨설팅 예약 - 분석 결과를 검토하고 맞춤형 마이그레이션 로드맵의 초안을 작성하는 45분 세션

  • PoC(기술 검증) 요청 - 가장 중요한 워크플로에 대한 파일럿 마이그레이션을 통해 당사의 접근 방식을 검증하세요

초기 단계 계획:

  • 마이그레이션 준비성 체크리스트 다운로드  조직의 준비 수준을 평가하기 위한 자가 평가 가이드

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Cracking Complex Contracts with GenAI on Azure Databricks

의료 및 생명 공학

August 27, 2025/1분 이내 소요

Azure Databricks에서 GenAI를 이용한 복잡한 계약 해독

De-identifying Medical Images Cost-Effectively with Vision Language Models on Databricks

의료 및 생명 공학

November 4, 2025/1분 이내 소요

Databricks에서 비전 언어 모델을 사용하여 비용 효율적으로 의료 이미지 비식별화하는 방법