책에 없는 내용 :
1. 윈도우10에 스파크 설치 할때는, hadoop 이 미리 설치 되어 있어야 한다.
https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin
2. 버전에 맞는 spark 설치하기(spark2.1.0, hadoop 2.6)
spark2.3.0, hadoop 2.7 로 하면 spark-shell 실행시 다음과 같은 에러 발생
spark2.3.0, hadoop 2.6 로 하면 spark-shell 실행시 다음과 같은 에러 발생
spark2.1.0, hadoop 2.7 로 하면 spark-shell 실행시 다음과 같은 에러 발생
Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V
sc 를 찾지 못함
eclipse에서 실행할때, maven - spark version을 책에 나와 있는대로 2.1.0으로 하면, compile 에러가 난다.
> spark version을 2.3.0 으로 하니 오류가 사라졌다.-_-;
WordCount 예제를 실행할때, 다음과 같은 에러가 난다.
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils
at org.apache.hadoop.metrics2.lib.MutableMetricsFactory.getName(MutableMetricsFactory.java:119)
Caused by: java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils
at java.net.URLClassLoader.findClass(Unknown Source)
pom.xml에 다음을 추가하면 된다. (* 2.6을 추가하면, 또 안된다.-_-)
<dependency>
<groupId>commons-lang</groupId>
<artifactId>commons-lang</artifactId>
<version>2.3</version>
</dependency>