Apache Spark™ 구조화된 스트리밍은 스트리밍 ETL부터 거의 실시간 분석 및 머신 러닝에 이르기까지 대규모의 중요한 파이프라인을 오랫동안 지원해 왔습니다. 이제, 우리는 실시간 모드, 라는 새로운 트리거 유형을 통해 이벤트를 도착하는 대로 처리하고, 수십 밀리초의 지연 시간으로 완전히 새로운 클래스의 작업 부하에 대한 기능을 확장하고 있습니다.
기존의 마이크로 배치 트리거와 달리, 고정된 일정에 따라 데이터를 처리하는 (ProcessingTime 트리거) 또는 모든 사용 가능한 데이터를 처리한 후 종료하는 (AvailableNow 트리거) 실시간 모드는 데이터를 지속적으로 처리하고 결과를 준비되는 즉시 내보냅니다. 이를 통해 기존 코드를 변경하거나 플랫폼을 변경하지 않고도 사기 탐지, 실시간 개인화, 실시간 머신러닝 피처 제공과 같은 초저지연 사용 사례를 가능하게 합니다.
이 새로운 모드는 오픈 소스 Apache Spark에 기여되며, 현재 Databricks의 Public Preview에서 사용할 수 있습니다.
이 포스트에서는 다음을 다룰 예정입니다:
실시간 모드는 Spark 구조화된 스트리밍에서 연속적이고 저지연 처리를 제공하며, p99 지연 시간은 단일 자릿수 밀리초까지 낮아집니다. 팀은 단일 구성 변경으로 이를 활성화할 수 있으며, 재작성이나 재플랫폼화 없이 오늘 사용하는 동일한 구조화된 스트리밍 API를 유지할 수 있습니다.
