주요 컨텐츠로 이동

Databricks의 Repos를 사용하여 데이터 과학 프로덕션화하기

prod-ds-repos-og2

Published: March 16, 2021

제품Less than a minute

대부분의 데이터 과학 솔루션은 데이터 팀이 탐색을 위한 유연성과 프로덕션을 위한 경직성 사이에서 선택하도록 합니다. 그 결과, 데이터 사이언티스트는 종종 다른 기술 스택을 사용하는 엔지니어링 팀에 작업을 전달하고 본질적으로 새로운 환경에서 작업을 다시 작성해야 합니다. 이는 비용이 많이 들 뿐만 아니라 데이터 사이언티스트의 작업이 비즈니스에 가치를 제공하는 데 걸리는 시간을 지연시킵니다.

Git과 통합함으로써 Databricks Repos는 데이터 과학 및 데이터 엔지니어링을 위한 동급 최강의 개발자 환경을 제공합니다.

Databricks의 차세대 데이터 과학 워크스페이스 는 이러한 상충 관계를 해결하여 최신 데이터 팀에 개방적이고 통합된 경험을 제공합니다. 이 Databricks 작업 공간의 일부로, 데이터 팀의 모든 구성원이 모범 사례를 따를 수 있도록 Git 공급자와의 리포지토리 수준 통합을 제공하는 새로운 Repos 기능의 정식 출시를 발표하게 되어 기쁩니다. Databricks Repos는 Github, Bitbucket, Gitlab 및 Microsoft Azure DevOps를 포함한 광범위한 Git 공급자를 지원하여 개발자 툴킷과 통합됩니다.

Git과 통합함으로써 Databricks Repos는 데이터 과학 및 데이터 엔지니어링을 위한 동급 최강의 개발자 환경을 제공합니다. 코드를 프로덕션에 배포하기 전에 Databricks에서 개발된 코드에 대해 코드 검토, 테스트 등의 표준을 적용할 수 있습니다. 개발자는 원격 Git Repos 복제(그림 1), Branch 관리, 원격 변경 사항 풀, commit 전 미처리 변경 사항 시각적 검사(그림 2) 등 Repos에서 익숙한 Git 기능을 사용할 수 있습니다.

원격 Git 리포지토리를 추가하여 Databricks 작업 공간에서 Git Repos 시작하기
그림 1: 시작하려면 복제하려는 Git 리포지토리의 URL을 제공하기만 하면 됩니다.
개발자는 각자의 개발 브랜치에서 작업하고 코드를 커밋하며 변경 사항을 풀(pull)할 수 있습니다. 커밋되지 않은 변경 사항은 커밋하기 전에 UI에서 확인할 수 있습니다.
그림 2: 개발자는 각자의 개발 브랜치에서 작업하고 코드를 커밋하며 변경 사항을 풀(pull)할 수 있습니다. 커밋되지 않은 변경 사항은 커밋하기 전에 UI에서 확인할 수 있습니다.

Repos의 공개 출시와 함께 가장 까다로운 엔터프라이즈 사용 사례를 충족하는 기능을 추가합니다:

  • 허용 목록 을 사용하면 관리자가 사용자가 코드를 커밋할 수 있는 Git 리포지토리의 URL 접두사를 구성할 수 있습니다. 이를 통해 허용되지 않은 리포지토리로 코드가 실수로 푸시되지 않도록 합니다.
  • 시크릿 탐지 는 소스 코드의 일반 텍스트 시크릿이 커밋되기 전에 이를 식별하여 데이터 팀이 시크릿 관리자 사용 모범 사례를 따르도록 돕습니다.

Repos는 CI/CD 파이프라인과 통합될 수도 있으며, 데이터 팀이 Data Science 및 machine learning(ML) 코드를 실험에서 프로덕션까지 원활하게 가져갈 수 있도록 합니다. Repos API(현재 비공개 미리 보기 상태이며, 액세스하려면 Databricks 담당자에게 문의)를 사용하면 프로그래밍 방식으로 Databricks Repos를 원격 브랜치의 최신 버전으로 업데이트할 수 있습니다. 이를 통해 예를 들어 다음과 같은 모범 사례 워크플로 등 CI/CD 파이프라인을 쉽게 구현할 수 있습니다.

  1. 개발: 개발자는 사용자 폴더에 있는 원격 리포의 개인 체크아웃에서 기능 브랜치 작업을 합니다.
  2. 검토 및 테스트: 기능이 검토 준비가 되고 PR이 생성되면 CI/CD 시스템이 Repos API를 사용하여 기능 branch의 변경 사항으로 Databricks의 테스트 환경을 자동으로 업데이트한 다음, 일련의 테스트를 실행하여 변경 사항의 유효성을 검사할 수 있습니다.
  3. 프로덕션: 마지막으로 모든 테스트를 통과하고 PR이 승인 및 병합되면 CI/CD 시스템에서 Repos API를 사용하여 Databricks의 프로덕션 환경을 변경 사항으로 업데이트할 수 있습니다. 이제 프로덕션 작업이 최신 코드로 실행됩니다.

Repos 기능은 차세대 워크스페이스 의 일부이며, 이번 공개 릴리스를 통해 데이터 팀은 모범 사례를 쉽게 따르고 탐색에서 프로덕션까지의 경로를 가속화할 수 있습니다.

시작하기

이 기능이 활성화된 Databricks 워크스페이스에는 Repos 아이콘이 �표시됩니다.

Repos는 공개 미리 보기 상태이며 Databricks 워크스페이스에서 활성화할 수 있습니다! Repos를 활성화하려면 관리자 패널 -> 고급으로 이동하여 “Repos” 옆에 있는 “활성화” 버튼을 클릭하세요. 개발자 문서에서 더 자세히 알아보세요.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks