김제로의 잡다한 프로그래밍 이야기

스파크 임시

NLP 2018. 4. 18. 17:54

모든 스파크 애플리케이션은 클러스터에서 다양한 병렬 연산을 수행하는 드라이버 프로그램으로 구성되어있다.

드라이버 프로그램들은 연산 클러스터에 대한 연결을 나타내는 SparkContext 객체를 통해 스파크에 접속한다.

쉘에서 이 SparkContext 객체는 자동으로 sc라는 변수에 만들어진다.

SparkContext 객체를 하나 만들었다면 그것으로 RDD를 만들어 낼 수 있다.

전 포스트에서 쓴 코드를 보면 텍스트파일 각 라인을 표현하는 RDD를 만들기 위해

sc.textFile()을 호출했었다. 그러고 나면 그 라인에 count() 같은 다양한 연산을 수행해 볼 수 있다.

이런 연산들을 수행하기 위해 드라이버 프로그램들은 보통 Executor(익스큐터)라 불리는 다수의 노드를 관리한다.

위의 사진은 스파크의 분산 실행을 위한 컴포넌트의 모양새이다 (출처: 러닝 스파크)

스파크가 클러스터에서 어떻게 실행되는지 알 수 있다.

ZeroFlag