본문 바로가기

Spark20

Spark 시작하기12 - [러닝 스파크] 4장 키/값 페어로 작업하기 package org.mystudy; import static org.MyConf.s; import java.io.Serializable; import java.net.MalformedURLException; import java.util.ArrayList; import java.util.Arrays; import java.util.Comparator; import java.util.List; import java.util.Map; import org.MyConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkConte.. 2016. 4. 20.
Spark 시작하기11 - [러닝 스파크] 3장 RDD로 프로그래밍하기2 package org; import java.io.Serializable; import org.apache.log4j.PropertyConfigurator; import org.apache.spark.api.java.JavaSparkContext; public class MyConf implements Serializable{ private static final long serialVersionUID = 9809021L; public static String PROJECT_PATH = System.getProperty("user.dir"); public static void setLog4j(){ PropertyConfigurator.configure(PROJECT_PATH + "\\src\\resour.. 2016. 4. 19.
Spark 시작하기10 - 알 수 없는 이클립스 강제종료 PC상태:문서암호화, OpenVPN이 설치됨보안 프로그램 설치로 인해 windows 종료시 한... 10분 넘게 걸린다.네트워크도 일부분 막혀있는 상태.가끔식 windows 종료가 아예 안되어서 PC를 shutdown하면, 재시작시 *.dll 파일들이 없어서 복사붙여넣기 일쑤....(*.dll 이 문제가 있어서, C:\hadoop\bin\winutils.exe 파일실행이 안되기도 했다.-_-;;) 이러한 상황에서이클립스를 이용해서 spark를 실행해보려고 한다. java8 64biteclipse : MARS.2 (64bit)project : maven (spark 1.6.1) >> 단순한 System.out.println(""); 이 있는 코드를 실행하면, 이클립스가 죽는다..ㅠㅠ 뭔가 이상하다.java.. 2016. 4. 19.
Spark 시작하기09 - 메모리 Exception Spark를 실행중.... 갑자기 Exception이 발생했다. Exceptioin 발생 당시 설정 : java : jdk1.8.0_77 (32bit)eclipse : MARS.1 (32bit)XXMaxPermSize : 256mXXMaxPermSize : 256mXms1024mXmx1024m 당시 컴퓨터 메모리 사용량 : 2.0G / 4.0G (이클립스 기동 후)Spark 설정 : local[1] > 큰 문제없는 설정이다. Exception msg:------------------------------------------------------------------------------------------------------------------------------------------------.. 2016. 4. 19.
Spark 시작하기08 - [러닝 스파크] 3장 RDD로 프로그래밍하기 [러닝 스파크] 3장 RDD로 프로그래밍하기 package org.mystudy; import java.io.Serializable; import java.util.Arrays; import org.apache.commons.lang3.StringUtils; import org.apache.log4j.PropertyConfigurator; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; public cl.. 2016. 4. 16.
Spark 시작하기07 - Java 와 Spark 와 Serializable Java 혹은 Scala로 람다를 작성시 Serializable Exception 이 자주 발생한다. 컴파일이 아닌, 런타임에러가 발생하므로,,, 도통 원인을 모르겠다. 하나하나 따져보자. 보통 자바 웹개발을 하는 사람은 Serializable을 볼 일이 거의 없다. 네트워크 소켓통신으로 객체를 주고받는 경우가 없기 때문이다.(직렬화) 보통 하는 일이 객체를 JSON 이나 XML로 변경하는 정도?? 그래서 더욱... Serializable Exception이 낯설다. 1. 성공케이스 package org.mystudy.testcase; import java.util.Arrays; import org.apache.log4j.PropertyConfigurator; import org.apache.spark... 2016. 4. 7.
Spark 시작하기06 - [러닝스파크] 로 전환 [Spark와 머신 러닝] 책으로 3장까지 공부하면서,,,파이썬 소스를 JAVA8로 전환하면서,,, 자연스럽게 많은 공부와 에러를 만나게 되었다. 항상... 왜 안되지?????? 라는 의문을 가진채.. 그도그럴것이...파이썬 소스는 완전 단축적이고, 데이터의 제너릭같은 것도 없고,파이썬 자체 라이브러리도 사용하다보니.. 그걸 다 맞춰가면서 JAVA8로 변형하는 것은 쉽지만은 않았다. 그러면서 결국... RDD 의 소중함!!!을 알게 되었다. RDD 가 핵심이구나.. [러닝스파크] 에서 말했던 RDD 가 이런거구나 라는 것을 체감하게 되었다.처음 [러닝스파크] 를 읽었을 때는,,, 뭐가 뭔가 하나도 몰랐는데... 역시 개발자는... 된다고 하는게... 안되는 현상을 경험하면서,,, 배우나 보다. [Spar.. 2016. 4. 4.
Spark 시작하기05 - Exception 16/04/03 21:12:53 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable16/04/03 21:12:57 WARN : Your hostname, MSDN-SPECIAL resolves to a loopback/non-reachable address: fe80:0:0:0:0:5efe:c0a8:5%net12, but we couldn't find any external IP address!Exception in thread "main" org.apache.spark.SparkException: Task not serializabl.. 2016. 4. 3.