(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
Databricks는 Workflows 와 Delta Live Tables (DLT) 파이프라인 내에서 향상된 스트리밍 관찰 기능을 소개하게 되어 기쁩니다. 이 기능은 데이터 엔지니어링 팀에게 실시간 데이터 처리를 최적 화하는 강력한 도구를 제공합니다. 사용자 인터페이스는 직관성을 위해 설계되었으며, 사용자가 Kafka, Kinesis, Delta, Autoloader와 같은 주요 스트리밍 소스에서 처리된 바이트, 수집된 레코드, 처리된 파일 등의 핵심 지표를 모니터링할 수 있게 해줍니다.
적극적인, 작업 수준의 알림 구현을 통해 백로그 관리에서 모호성이 제거되어, 보다 효율적인 컴퓨팅 리소스 활용을 촉진하고 데이터 신선도 유지가 보장됩니다. 이러한 혁신은 조직이 신뢰할 수 있는 고성능 스트리밍 파이프라인을 통해 실시간 분석을 확장하게 함으로써, 의사결정 과정을 향상시키고 우수한 결과를 촉진합니다.
증가하는 백로그는 일회성 수정부터 데이터 볼륨 증가를 처리하기 위한 재구성 또는 최적화 필요성에 이르기까지 다양한 문제를 나타낼 수 있습니다. 아래는 엔지니어링 팀이 스트리밍 파이프라인의 처리량과 신뢰성을 유지하기 위해 집중하는 몇 가지 중요한 영역입니다.
스트림의 백로그를 이해하는 데는 여러 단계가 필요했습니다. Delta Live Tables에서는 파이프라인 이벤트 로그 를 계속 파싱하여 관련 정보를 추출하는 것이 포함되었습니다. 구조화된 스트리밍의 경우, 엔지니어들은 종종 Spark의 StreamingQueryListener 에 의존하여 백로그 지표를 캡처하고 이를 제3자 도구로 밀어내는데, 이는 추가 개발 및 유지 관리 오버헤드를 도입했습니다. 알림 메커니즘을 설정하는 것은 더 복잡하게 만들었으며, 더 많은 사용자 정의 코드와 구성이 필요했습니다.
지표가 전달된 후에도 백로그를 지우는 데 필요한 시간에 대한 기대 관리에는 여전히 도전이 있습니다. 데이터가 따라잡을 때까지 정확한 예측을 제공하는 것은 처리량, 리소스 가용성, 스트리밍 작업 부하의 동적 특성과 같은 변수를 포함하므로 정확한 예측을 하는 것이 어렵습니다.
