스파크 임시

NLP 2018. 4. 18. 17:54

모든 스파크 애플리케이션은 클러스터에서 다양한 병렬 연산을 수행하는 드라이버 프로그램으로 구성되어있다.


드라이버 프로그램들은 연산 클러스터에 대한 연결을 나타내는 SparkContext 객체를 통해 스파크에 접속한다.

쉘에서 이 SparkContext 객체는 자동으로 sc라는 변수에 만들어진다.


SparkContext 객체를 하나 만들었다면 그것으로 RDD를 만들어 낼 수 있다.

전 포스트에서 쓴 코드를 보면 텍스트파일 각 라인을 표현하는 RDD를 만들기 위해

sc.textFile()을 호출했었다. 그러고 나면 그 라인에 count() 같은 다양한 연산을 수행해 볼 수 있다.


이런 연산들을 수행하기 위해 드라이버 프로그램들은 보통 Executor(익스큐터)라 불리는 다수의 노드를 관리한다.




위의 사진은 스파크의 분산 실행을 위한 컴포넌트의 모양새이다 (출처: 러닝 스파크)


스파크가 클러스터에서 어떻게 실행되는지 알 수 있다.

'NLP' 카테고리의 다른 글

Spark RDD란 무엇인가?  (923) 2018.04.18
Spark를 설치 실행해보자  (934) 2018.04.18
파이썬으로 텍스트 마이닝 하기 (쓰는중..)  (1347) 2018.04.16
블로그 이미지

ZeroFlag

,