eBook

데이터의 잠재력 활용

Apache Spark™와 Delta Lake가 BI 및 ML용 단일 플랫폼에서 빅데이터와 비즈니스 데이터를 비롯한 모든 데이터를 통합하는 방법을 알아보세요.

Apache Spark 3.x는 Spark 전체 구성 요소의 사용 편의성과 성능을 높이고 API를 스마트하게 통합한 기념비적인 변화입니다. 또한 처리 중인 데이터에 대해, Delta Lake는 ACID 트랜잭션, 스키마 적용, CML 명령, 시간 이동과 같은 기능을 통해 데이터 레이크로 유입되는 데이터의 신뢰성과 성능을 높입니다.

이 eBook에서는 Apache Spark 및 Delta Lake에 대해 알아볼 수 있는 기술 콘텐츠 및 관련 자산에 대한 단계별 가이드를 제공합니다. 이제 막 사용을 시작했든, 이미 숙련된 개발자이든 관계없이 이러한 오픈 소스 프로젝트의 이점을 살펴보세요.

여기에서 살펴볼 8단계는 다음과 같습니다.

  1. Apache Spark 및 Delta Lake를 선택해야 하는 이유
  2. Apache Spark 개념, 주요 용어 및 키워드
  3. 고급 Apache Spark 내부 및 코어
  4. DataFrames, 데이터 세트 및 Spark SQL 필수 사항
  5. GraphFrames를 사용한 그래프 처리
  6. 지속형 애플리케이션과 Structured Streaming
  7. 인간을 위한 며신 러닝
  8. 신뢰할 수 있는 데이터 레이크 및 데이터 파이프라인