본문 바로가기
Spark/스파크2 프로그래밍

01. 스파크 소개

by java개발자 2018. 3. 8.

책에 없는 내용 :


1. 윈도우10에 스파크 설치 할때는, hadoop 이 미리 설치 되어 있어야 한다.

https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin

참고: http://javacan.tistory.com/entry/%EC%9C%88%EB%8F%84%EC%9A%B0%EC%97%90%EC%84%9C-sparkshell-%EC%8B%A4%ED%96%89%ED%95%98%EA%B8%B0


2. 버전에 맞는 spark 설치하기(spark2.1.0, hadoop 2.6)

spark2.3.0, hadoop 2.7 로 하면 spark-shell 실행시 다음과 같은 에러 발생

spark2.3.0, hadoop 2.6 로 하면 spark-shell 실행시 다음과 같은 에러 발생

spark2.1.0, hadoop 2.7 로 하면 spark-shell 실행시 다음과 같은 에러 발생

Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

sc 를 찾지 못함




eclipse에서 실행할때, maven - spark version을 책에 나와 있는대로 2.1.0으로 하면, compile 에러가 난다.

> spark version을 2.3.0 으로 하니 오류가 사라졌다.-_-;


WordCount 예제를 실행할때, 다음과 같은 에러가 난다.


Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils

at org.apache.hadoop.metrics2.lib.MutableMetricsFactory.getName(MutableMetricsFactory.java:119)


Caused by: java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils

at java.net.URLClassLoader.findClass(Unknown Source)


pom.xml에 다음을 추가하면 된다. (* 2.6을 추가하면, 또 안된다.-_-)

<dependency>

    <groupId>commons-lang</groupId>

    <artifactId>commons-lang</artifactId>

    <version>2.3</version>

</dependency>