1. Spark 다운로드 하기


http://spark.apache.org/downloads.html


위 주소를 브라우저 주소창에 입력한다.



위와 같은 창이 뜬다면 맞게 들어온 것이다.


보면 1,2,3,4 단계로 나뉘는데

3단계 까지만 하면 된다.


1. 자신이 원하는 스파크의 버전을 나타낸다.

   콤보 박스 형태이기 때문에 마우스로 클릭해서 고를 수 있다.


2. 같이 설치할 하둡의 버전을 나타낸다

    마찬가지로 콤보 박스 형태로나온다.


3. 선택이 끝나면 3번에 있는 파란색 텍스트를 클릭하면 다운로드 페이지로 넘어가게 된다.




이런 페이지가 뜨는데 맨 위 미러링크를 클릭하면 파일을 다운로드 하게 된다.



2. 스파크 압축풀기


다운르드가 완료되면 spark-2.3.0-bin-hadoop2.7.taz 라는 파일이 생성되어 있을 것이다.


맥일 경우 대부분 다운로드에 저장이되는데 다운로드 파일을 자신이 지정한 디렉토리로 옮겨주면 된다.


필자는 다운로드후 바탕화면에 Spark 라는 디렉토리를 생성하여 옮겨주었다.


그리고 압축을 풀어준다.


압축을 풀어주는 방법은 간단한데 


tar -xf spark-2.3.0-bin-hadoop2.7.tgz


위의 명령어를 입력하면 쉽게 압축이 풀릴 것이다.


압축을 풀고나면 ls 명령어를 통해 파일들이 멀쩡하게 있는지 확인해보자


LICENSE README.md conf jars python

NOTICE RELEASE data kubernetes sbin

R bin examples licenses yarn


이런식으로 나타난다면 정상이다.



3. 스파크를 실행해보자


스파크는 Scala 또는 Python을 사용하여 실행할 수 있다.

(만일 현재 보고있는 경로가 압축을 풀고난 디렉토리가 아닐경우 경로를 이동해주어라)

(명령어 : cd spark-2.3.0-bin-hadoop2.7 을 입력하면 된다.)


파이썬을 이용한 쉘을 열려면

bin/pyspark


Scala를 이용한 쉘을 열려면

bin/spark-shell


실행후의 화면



이렇게 뜬다면 정상적으로 실행된것이다.

'NLP' 카테고리의 다른 글

스파크 임시  (1378) 2018.04.18
Spark RDD란 무엇인가?  (923) 2018.04.18
파이썬으로 텍스트 마이닝 하기 (쓰는중..)  (1347) 2018.04.16
블로그 이미지

ZeroFlag

,