728x90
운영을 위한 스파크 클러스터의 컴포넌트들과 스파크의 아키텍처에 관한 내용을 다루는 단원이다.
스파크 어플리케이션의 아키텍처
1. 스파크 드라이버
- 드라이버는 스파크 어플리케이션의 실행을 제어하고, 스파크 클러스터의 모든 상태 정보를 유지한다.
- 클러스터 매니저와 통신하여 물리적인 컴퓨팅 자원을 확보하고 익스큐터를 실행한다.
2. 스파크 익스큐터
- 스파크 드라이버가 할당한 태스크를 수행하는 프로세스.
- 익스큐터는 드라이버가 할당한 태스크를 받아 실행하고 태스크의 상태를 드라이버에게 보고한다.
3. 클러스터 매니저
- 스파크 어플리케이션을 실행할 클러스터 머신을 유지한다.
실행 모드
어플리케이션을 실행할 때, 요청한 자원의 물리적인 위치를 '모드'에 따라서 결정한다.
1.클러스터 모드
2.클라이언트 모드
3.로컬 모드
728x90
'Data Engineering > Apache Spark' 카테고리의 다른 글
[Spark] Spark JDBC 연결시 발생하는 data skew 현상 해결하기 (0) | 2024.05.10 |
---|---|
[Spark] Spark Streaming 과 Structure Streaming 비교하기 (0) | 2024.03.03 |
[Spark] 스파크 완벽 가이드 Ch09. 데이터 소스 (0) | 2023.11.27 |
[Spark] 스파크 완벽 가이드 04 - Ch 04. 구조적 API 개요 (0) | 2023.11.07 |
[Spark] 스파크 완벽 가이드 (3) - Ch.03 스파크 기능 둘러보기 (Dataset, Structured Streaming) (0) | 2023.11.02 |