Revenir au contenu principal

Alchemist : de Brickbuilder à une application de Databricks Marketplace

Automatisez votre migration de SAS vers Databricks

Alchemist SAS to Databricks Migrations

Published: January 21, 2026

Santé et sciences du vivant14 min read

Summary

  • Alchemist est un accélérateur complet de migration de SAS vers Databricks qui combine une expertise approfondie des systèmes existants avec des capacités d'IA modernes.
  • La solution fonctionne à la fois comme un analyseur — fournissant des informations détaillées sur la complexité et les dépendances du code — et un transpileur qui utilise des grands modèles de langage (LLM) pour atteindre une conversion de code de près de 100 % à partir de formats comme SAS EG et .spk vers PySpark.
  • Alchemist permet aux entreprises non seulement de moderniser leur code, mais aussi de réussir rapidement la transition de leurs processus métier et de leurs équipes vers la plateforme Databricks.

Depuis près de six ans, T1A collabore avec Databricks sur des projets de migration de bout en bout de SAS vers Databricks pour aider les entreprises à moderniser leur plateforme de données. En tant qu'ancien partenaire SAS Platinum, nous possédons une connaissance approfondie des points forts, des particularités et des problèmes cachés de la plateforme, qui découlent du comportement unique du moteur SAS. Aujourd'hui, cette expertise historique est complétée par une équipe de Databricks Champions et une pratique dédiée à l'ingénierie des données, ce qui nous confère la capacité rare de parler couramment « SAS » et « Spark ».

Au début de notre parcours, nous avons observé un schéma récurrent : les organisations voulaient abandonner SAS pour diverses raisons, pourtant chaque voie de migration semblait pénible, risquée, ou les deux. Nous avons étudié le marché, piloté plusieurs options d'outillage et avons conclu que la plupart des solutions manquaient de puissance et considéraient la migration SAS comme un simple « changement de dialectes SQL ». Ce manque nous a poussés à développer notre propre transpileur, et Alchemist a été lancé pour la première fois en 2022.

Alchemist est un outil puissant qui automatise votre migration de SAS vers Databricks

Alchemist est un outil puissant qui automatise votre migration de SAS vers Databricks : 

  • Analyse le code SAS et en décompose la syntaxe pour fournir des insights détaillées à chaque niveau, comblant les lacunes laissées par les profilers de base et vous donnant une compréhension claire de votre charge de travail.
  • Convertit le code SAS vers Databricks en utilisant les meilleures pratiques conçues par nos architectes et nos champions Databricks, fournissant un code propre et lisible, sans complexité inutile.
  • Prend en charge tous les formats courants, y compris le code SAS (fichiers .sas), les fichiers de projet SAS EG et les Jobs SAS DI au format .spk, en extrayant à la fois le code et les métadonnées précieuses
  • Fournit des résultats flexibles et configurables avec des fonctions de template personnalisées pour répondre aux exigences architecturales les plus strictes.
  • Intègre les capacités des LLM d'IA pour les structures de code atypiques, atteignant un taux de conversion de 100 % sur chaque fichier.
  • S'intègre facilement aux frameworks ou aux pipelines CI/CD pour automatiser l'ensemble du flux de migration, de l'analyse à la validation finale et au déploiement.

Alchemist, ainsi que tous nos outils, n'est plus seulement un accélérateur de migration ; c'est le moteur principal et le driver de migration de nos projets.

Alors, qu'est-ce qu'Alchemist en détail ?

Analyseur Alchemist 

Avant tout, Alchemist n'est pas seulement un transpileur, c'est un puissant outil d'évaluation et d'analyse. L'analyseur Alchemist décompose et examine rapidement tout batch de code, produisant un profil complet de ses caractéristiques de code SAS. Au lieu de consacrer des semaines à une revue manuelle, les clients peuvent obtenir en quelques minutes une vue d'ensemble complète des modèles de code et de leur complexité.

Le tableau de bord d'analyse est gratuit et désormais disponible de deux manières :

Cette analyse donne un insight de la taille du périmètre de migration, met en évidence les éléments uniques, détecte les intégrations et aide à évaluer les préférences des équipes pour différents modèles de programmation. Elle classifie également les types de charges de travail, nous aide à prédire les taux de conversion de l'automatisation et estime l'effort nécessaire pour la validation de la qualité des résultats.

Plus qu'un simple aperçu de haut niveau, Alchemist Analyzer offre une vue tabulaire détaillée (que nous appelons DDS) montrant comment les procédures et les options sont utilisées, data lineage et la façon dont les composants du code dépendent les uns des autres. 

Ce niveau de détail permet de répondre à des questions telles que :

  • Quel cas d'usage devrions-nous sélectionner pour le MVP afin de démontrer rapidement les améliorations ?
  • Comment devrions-nous prioriser la migration du code, par exemple, migrer d'abord les données fréquemment utilisées ou donner la priorité aux producteurs de données critiques ?
  • Si nous refactorisons une macro spécifique ou modifions une structure source, quels autres segments de code seront affectés ?
  • Pour libérer de l'espace disque ou pour cesser d'utiliser un composant SAS coûteux, quelles mesures devons-nous prendre en premier ?

Parce que l'Analyseur expose chaque dépendance, flux de contrôle et point de contact des données, il nous donne une réelle compréhension du code, nous permettant de faire bien plus qu'une simple conversion automatisée. Nous pouvons identifier précisément où valider les résultats, décomposer les monolithes en blocs de migration significatifs, faire ressortir des modèles reproductibles et rationaliser les tests de bout en bout, des capacités que nous avons déjà utilisées sur plusieurs projets clients.

Transpileur Alchemist

Commençons par un bref aperçu des capacités d'Alchemist :

  • Sources : projets SAS EG (.egp), code de base SAS (.sas), Tâches SAS DI (.spk)
  • Cibles : Notebooks Databricks, code Python PySpark, pipelines Prophecy, etc.
  • Couverture : Couverture et précision de près de 100 % pour le SQL, les procédures et transformations courantes, les étapes de données et le code macro.
  • Post-conversion avec LLM : Identifie les instructions problématiques et les ajuste à l'aide d'un LLM pour améliorer le code final.
  • Templates : Fonctionnalités permettant de redéfinir le comportement du convertisseur pour répondre aux visions de refactoring ou d'architecture cible.

Le transpileur Alchemist fonctionne en trois étapes :

  1. Analyse du code : Le code est analysé dans un arbre syntaxique abstrait (AST) détaillé, qui décrit entièrement sa logique.
  2. Reconstruction du code : Selon le dialecte cible, une règle spécifique est appliquée à chaque nœud AST pour reconstruire la transformation dans le moteur cible, étape par étape, pour la reconvertir en code.
  3. Analyser le résultat et affiner : Le résultat est analysé. Si des instructions rencontrent des erreurs, elles peuvent être converties à l'aide d'un LLM. Ce processus consiste à fournir l'instruction d'origine ainsi que toutes les métadonnées pertinentes sur les tables utilisées, le contexte de calcul et les exigences du code.

Tout cela semble prometteur, mais comment cela se traduit-il dans un scénario de migration réel ? 

Partageons quelques métriques d'une récente migration multi-entités au cours de laquelle nous avons déplacé des centaines de flux SAS Enterprise Guide vers Databricks. Ces flux géraient le reporting quotidien et la consolidation des données, effectuaient des contrôles métier de routine et étaient principalement gérés par des équipes d'analytique. Les entrées typiques comprenaient des fichiers texte, des classeurs XLSX et diverses tables SGBDR ; les sorties allaient d'extraits Excel/CSV et d'alertes par e-mail à des résumés paramétrés affichés à l'écran. La migration a été effectuée avec Alchemist v2024.2 (une version antérieure à celle actuellement disponible), les utilisateurs d'aujourd'hui peuvent donc s'attendre à des taux d'automatisation encore plus élevés et à une meilleure qualité des résultats.

Pour vous donner quelques chiffres, nous avons mesuré des statistiques pour une partie de 30 flux EG aléatoires migrés avec Alchemist.

Nous devons commencer par de brefs avertissements:

  1. Lorsque nous parlons du taux de conversion, nous nous référons au pourcentage du code original qui a été automatiquement transformé en code exécutable dans Databricks. Cependant, la véritable précision de cette conversion ne peut être déterminée qu'après avoir exécuté des tests sur les données et validé les résultats.
  2. Les métriques sont collectées sur la version précédente d'Alchemist sans Templates ; les configurations supplémentaires et l'utilisation des LLM ont été désactivées. 

Ainsi, nous avons atteint un taux de conversion de près de 75 % avec une précision de près de 90 % (90 % des étapes du flux ont passé la validation sans modification) :

État de la conversion

%

Flux 

Notes

Converti de manière entièrement automatique avec une précision de 100 %

33 %

10

Sans aucun problème

Entièrement converti, avec des divergences de données lors de la validation

30 %

9

De légers écarts ont été constatés lors de la validation des données des résultats

Partiellement converti

15 %

5

Certaines étapes n'ont pas été converties, moins de 20 % des étapes de chaque flux

Problèmes de conversion

22%

6

Problèmes de préparation (par ex., mappage incorrect, échantillon de source de données incorrect, fichier EG d'origine corrompu ou non exécutable) et types d'instructions rares

Avec la dernière version d'Alchemist dotée d'une conversion assistée par IA, nous avons atteint un taux de conversion de 100 %. Cependant, les résultats fournis par l'IA présentaient toujours le même problème de manque de précision. Cela fait de la validation des données le prochain « casse-tête » pour la migration.

D'ailleurs, il convient de souligner qu'une préparation minutieuse du code, des mappages d'objets et d'autres configurations est essentielle à la réussite des migrations. Un code corrompu, un mappage de données incorrect, des problèmes de migration des sources de données, un code obsolète et d'autres problèmes liés à la préparation sont généralement difficiles à identifier et à isoler, mais ils ont un impact significatif sur les délais de migration.

Flux de travail de validation des données et approche agentique

Avec une conversion de code automatisée et pilotée par l'IA désormais proche du « clic unique », le véritable goulot d'étranglement s'est déplacé vers la validation métier et l'acceptation par les utilisateurs. Dans la plupart des cas, cette phase consomme 60 à 70 % du calendrier global de la migration et représente la majeure partie du risque et du coût du projet. Au fil des ans, nous avons expérimenté plusieurs techniques, frameworks et outils de validation pour raccourcir la « phase de validation » sans perte de qualité.

Les défis commerciaux typiques auxquels nous sommes confrontés avec nos clients sont :

  • Combien de tests sont nécessaires pour garantir la qualité sans étendre la portée du projet ?
  • Comment obtenir une isolation des tests afin qu'ils ne mesurent que la qualité de la conversion, tout en restant reproductibles et déterministes ? Comparaison équivalente.
  • Automatisation de la boucle complète : préparation des tests, exécution, analyse des résultats et corrections
  • Identifier l'étape, le tableau ou la fonction exacte qui cause une anomalie, permettant ainsi aux ingénieurs de résoudre les problèmes une bonne fois pour toutes et de passer à autre chose

Nous avons opté pour la configuration suivante : 

  • Génération automatique de tests basée sur des échantillons de données réelles collectés automatiquement dans SAS
  • Tests isolés en 4 phases:
    • Tests unitaires - test isolé de chaque instruction convertie
    • Test E2E - test complet du pipeline ou du notebook, utilisant des données copiées depuis SAS
    • Validation des sources réelles - test complet sur l'environnement de test à l'aide des sources cibles
    • Test de type production - un test complet sur un environnement de type production utilisant des sources réelles pour mesurer les performances, valider le déploiement, recueillir des statistiques sur les résultats et exécuter plusieurs scénarios d'utilisation
  • « Vibe testing » : les agents d'IA se sont montrés performants pour corriger et ajuster les tests unitaires et les tests E2E. Cela est dû à leur contexte limité, à la rapidité des résultats de validation et à l'itérabilité grâce à l'échantillonnage des données. Cependant, les agents ont été moins utiles dans les deux dernières phases, où une expertise et une expérience approfondies sont requises.
  • Rapports. Les résultats doivent être consolidés dans des rapports clairs et reproductibles, prêts pour un examen rapide par les principales parties prenantes. Celles-ci n'ont généralement pas beaucoup de temps pour valider le code migré et ne sont disposées qu'à accepter et à tester le cas d'utilisation complet.

Nous entourons ce processus de frameworks, de scripts et de templates pour obtenir rapidité et flexibilité. Nous n'essayons pas de créer un produit « prêt à l'emploi », car chaque migration est unique, avec des environnements, des exigences et des niveaux de participation du client différents. Mais l'installation et la configuration doivent tout de même être rapides. 

La combinaison de la sophistication technique d'Alchemist et de notre méthodologie éprouvée a constamment fourni des résultats mesurables : un taux d'automatisation de la conversion de près de 100 % et une réduction de 70 % du temps de validation et de déploiement. 

Finalisation de la migration

La véritable mesure de toute solution de migration ne réside pas dans ses fonctionnalités, mais dans son impact réel sur les opérations du client. Chez T1A, nous nous concentrons sur bien plus que l'aspect technique de la migration. Nous savons qu'une migration n'est pas terminée lorsque le code est converti et testé. La migration est terminée lorsque tous les processus métier sont migrés et consomment des données de la nouvelle plateforme, lorsque les utilisateurs métier sont intégrés et lorsqu'ils profitent déjà des avantages de travailler dans Databricks. C'est pourquoi nous ne nous contentons pas de migrer, mais nous fournissons également un support de projet post-migration avancé avec nos spécialistes pour assurer une intégration plus fluide du client, y compris :

  • monitoring personnalisé de votre plateforme de données
  • Ateliers pédagogiques personnalisables et adaptés à différents publics
  • Accompagner les équipes avec des niveaux d'engagement flexibles pour répondre aux demandes des utilisateurs techniques et métier
  • Ateliers de partage des meilleures pratiques
  • Aide à la création d'un centre d'expertise au sein de votre entreprise.

Tous ces éléments, de l'analyse complète du code et de la transpilation automatisée aux frameworks de validation basés sur l'IA et au support post-migration, ont été éprouvés dans de multiples migrations d'entreprise. Et nous sommes prêts à partager notre expertise avec vous. 

Nos réussites

Il est donc temps de résumer. Au cours des dernières années, nous avons appliqué cette approche intégrée à diverses organisations du secteur de la santé et de l'assurance, chacune étant confrontée à des défis uniques, à des exigences réglementaires et à des charges de travail critiques.

Nous avons appris, développé nos outils et amélioré notre approche, et nous sommes maintenant là pour partager notre vision et notre méthodologie avec vous. Vous trouverez ici un aperçu des références de nos projets, et nous sommes prêts à vous en communiquer davantage sur demande. 

Client

Dates

Descriptions de projet

Grande compagnie d'assurance maladie, Benelux

2022 - Aujourd'hui

Migration d'un EDWH d'entreprise de SAS vers Databricks à l'aide d'Alchemist. Introduction d'une approche de migration avec un taux d'automatisation de 80 % pour les tâches répétitives (1 600 Jobs ETL). Conception et mise en œuvre d'une infrastructure de migration, permettant aux processus de conversion et de migration de coexister avec les opérations commerciales en cours. Notre framework de test automatisé a réduit le temps des UAT de 70 %.

Compagnie d'assurance maladie, États-Unis

2023

Migration des rapports analytiques de SAS EG sur site vers Azure Databricks à l'aide d'Alchemist. T1A a utilisé Alchemist pour accélérer l'analyse, la migration du code et les tests internes. T1A a fourni des services de conseil pour la configuration des services Azure sélectionnés pour Databricks compatible avec Unity Catalog, la formation des utilisateurs sur la plateforme cible et la rationalisation du processus de migration pour assurer une transition transparente pour les utilisateurs finaux.

Entreprise du secteur de la santé, Japon

2023 - 2025

Migration des rapports analytiques de SAS EG sur site vers Azure Databricks. T1A a tiré parti d'Alchemist pour accélérer l'analyse, la migration du code et les tests internes. Nos efforts ont porté sur la mise en place d'un Data Mart, la conception de l'architecture et l'activation des fonctionnalités cloud, ainsi que sur la création de plus de 150 pipelines pour les flux de données afin de soutenir le reporting. Nous avons fourni des services de conseil pour la configuration de services Azure sélectionnés pour Databricks compatible avec Unity Catalog et avons proposé l'habilitation et la formation des utilisateurs sur la plateforme cible. 

PacificSource Health Plans, États-Unis

2024 - Présent

Modernisation de l'infrastructure analytique existante du client en migrant les workflows ETL paramétrés basés sur SAS (70 scripts) et le Data Mart analytique SAS vers Databricks. Réduction du temps de rafraîchissement du Data Mart de 95 %, élargissement de l'accès au vivier de talents grâce à l'utilisation du langage de code standard PySpark, activation de l'assistance GenAI et du « vibe coding », amélioration de Git& CI/CD pour une meilleure fiabilité, réduction significative de l'empreinte SAS et économies sur les licences SAS. 

Et maintenant ?

Nous avons seulement start notre adoption d'une approche agentique, mais nous reconnaissons déjà son potentiel pour automatiser les activités de routine. Cela inclut la préparation des configurations et des mappages, la génération de données de test personnalisées pour atteindre une couverture complète du code et la création automatique de Templates pour satisfaire aux règles d'architecture, entre autres idées.

D'un autre côté, nous constatons que les capacités actuelles de l'IA ne sont pas encore assez matures pour gérer certaines tâches et certains scénarios très complexes. Par conséquent, nous prévoyons que la voie la plus efficace se situe à l'intersection de l'IA et des méthodologies programmatiques.

Rejoignez notre prochain webinar - « Bonnes pratiques de migration SAS : enseignements tirés de plus de 20 projetsd'entreprise »

Nous partagerions en détail ce que nous avons appris, les prochaines étapes et les meilleures pratiques pour la migration complète vers Databricks. Ou, regardez la démo de notre approche de migration → ainsi que de nombreux autres documents concernant la migration sur notre Canal de distribution.

Prêt à accélérer votre migration SAS ?

Commencez sans aucun risque - Obtenez votre évaluation gratuite dès aujourd'hui

Analysez votre environnement SAS en quelques minutes →

Upload votre code SAS pour une analyse instantanée et complète. Découvrez la complexité de la migration, identifiez les gains rapides et obtenez des estimations de dimensionnement automatisées, le tout gratuitement et sans inscription.

Passez à l'étape suivante

Pour les organisations prêtes pour la migration ([email protected]) :

  • Réservez une consultation stratégique : une session de 45 minutes pour examiner les résultats de votre analyse et élaborer une feuille de route de migration personnalisée

  • Demander une preuve de concept - Validez notre approche avec une migration pilote de vos workflows les plus critiques

Pour la planification en phase initiale :

  • Téléchargez la check-list de préparation à la migration  Guide d'auto-évaluation pour évaluer le niveau de préparation de votre organisation

 

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Cracking Complex Contracts with GenAI on Azure Databricks

Saúde e ciências da vida

August 27, 2025/6 min de leitura

Desvendando Contratos Complexos com GenAI no Azure Databricks

De-identifying Medical Images Cost-Effectively with Vision Language Models on Databricks

Saúde e ciências da vida

November 4, 2025/6 min de leitura

Desidentificando imagens médicas com bom custo-benefício com modelos de linguagem de visão no Databricks