
데이터 팀은 문제 해결, 패치 적용, 실패한 워크로드 재시작에 너무 많은 시간을 소비합니다. 엔지니어들이 하루 종일 워크로드를 조사하고 디버깅하는 경우도 드물지 않습니다.
이제 데이터 엔지니어들이 작업의 문제를 모니터링하고 진단하는 것이 더 쉬워졌습니다. 이러한 기능을 통해 작업 실행이 실패하거나 비정상적으로 오래 걸릴 때 이를 파악하고, 실패 원인을 이해하며, 문제의 근본 원인을 신속하게 해결할 수 있습니다.
타임라인 뷰(Timeline view)에서의 시각적 작업 실행
데이터 엔지니어로서 워크로드를 최적화하는 첫 번째 단계는 시간이 어디에 소비되는지를 이해하는 것입니다. 복잡한 데이터 워크플로에서는 마치 건초 더미에서 바늘을 찾는 것처럼 느껴질 수 있습니다. 새로운 타임라인 뷰는 작업 실행을 타임라인 상의 수평 막대로 표시하여 작업 간의 의존성, 지속 시간, 상태를 보여줍니다. 이를 통해 DAG 실행에서 병목 현상과 시간 소모가 큰 영역을 신속하게 파악할 수 있습니다. 작업이 어떻게 교차하고 지연이 발생하는지를 종합적으로 보여줌으로써, 타임라인 뷰는 프로세스를 간소화하고 효율성을 향상시키는 데 도움을 줍니다.
실행 이벤트(Run Events): 작업 진행 상황에 대한 중요한 정보 확인
워크플로 실행의 진행 상황을 추적하는 일은 종종 불투명하고 번거로울 수 있습니다. 필수적인 문제 해결 정보를 얻기 위해 상세한 로그를 검토해야 하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 제품 내에서 실행 진행 상황을 시각화할 수 있는 실행 이벤트 기능을 구축했습니다. 이 기능을 통해 컴퓨팅 시작 및 종료, 사용자의 실행 시작, 재시도, 상태 변경, 알림 등 중요한 관련 이벤트를 쉽게 확인할 수 있습니다.
더 나은, 더 간단한, 실행에 옮길 수 있는 오류 메시지
오류 메시지를 해석하는 일은 종종 벅차고 혼란스러우며 많은 시간을 소모할 수 있습니다. 특히 메시지가 일관성이 없고 지나치게 기술적일 때 더욱 그렇습니다. 우리는 오류 코드를 간소화하고 실행 가능성을 높였습니다. 이를 통해 작업 전반에 걸쳐 비정상적인 오류를 모니터링하고, 오류 코드로 실행을 필터링하며, 실행 실패를 훨씬 더 빠르게 해결할 수 있습니다. 이러한 오류 설명은 복잡한 로그를 뒤지거나 전체 코드를 다시 이해하지 않고도 무엇이 잘못되었는지를 빠르게 파악할 수 있도록 도와줍니다. 예를 들어, 실행 중 발생하는 UnauthorizedError는 작업 실행에 필요한 리소스 접근 권한 문제를 나타낼 수 있습니다.
Databricks Assistant의 워크플로 통합
우리의 AI 기반 데이터 인텔리전스 엔진인 Databricks Assistant가 이제 작업 실패를 진단하고 해결 및 테스트를 위한 단계를 제공합니다. Databricks 워크플로 내에서 상황에 맞는 도움을 가장 필요할 때 받을 수 있습니다. 현재 이 기능은 노트북 작업 유형에만 지원되지만, 다른 작업 유형에 대한 지원도 곧 추가될 예정입니다.
작업에서 사용되는 Python 라이브러리 목록
라이브러리 문제를 디버깅하는 과정은 버전 충돌, 손상된 패키지, 난해한 오류로 인해 좌절스럽고 시간이 많이 소모될 수 있습니다. 이제 작업 실행에서 사용된 Python 라이브러리와 그 버전 번호를 나열할 수 있습니다. 이 기능은 특히 유용한데, Python 패키지가 이미 DBR 이미지의 일부로 사전 설치되어 있거나 컴퓨트 클러스터의 부트스트랩 작업 중에 설치될 수 있기 때문입니다. 또한 이 기능은 위의 어떤 요소가 사용된 패키지 버전에 영향을 미쳤는지를 강조합니다.
시작하기
Databricks 워크플로를 시작하려면 빠른 시작 가이드를 참조하세요. 지금 바로 Workflows 탭을 클릭하여 Azure, AWS 및 GCP에서 이러한 기능을 시도해 볼 수 있습니다.
앞으로의 계획
우리는 모니터링, 경고 및 관리 기능을 개선하기 위해 계속해서 확장해 나갈 것입니다. 검색 및 태그 기능을 개선하여 관심 있는 작업을 더 쉽게 찾을 수 있는 새로운 방법을 개발 중입니다. 여러분의 경험과 보고 싶은 기능에 대한 의견도 환영합니다.
(번역: Youngkyong Ko) Original post