본문 바로가기

Spark20

01. 스파크 소개 책에 없는 내용 : 1. 윈도우10에 스파크 설치 할때는, hadoop 이 미리 설치 되어 있어야 한다.https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin참고: http://javacan.tistory.com/entry/%EC%9C%88%EB%8F%84%EC%9A%B0%EC%97%90%EC%84%9C-sparkshell-%EC%8B%A4%ED%96%89%ED%95%98%EA%B8%B0 2. 버전에 맞는 spark 설치하기(spark2.1.0, hadoop 2.6)spark2.3.0, hadoop 2.7 로 하면 spark-shell 실행시 다음과 같은 에러 발생spark2.3.0, hadoop 2.6 로 하면 spark-shell.. 2018. 3. 8.
Spark 시작하기20 - [Spark와 머신 러닝] 5장 스파크를 이용한 분류 모델 구현 scala로 짜여진 소스코드를 java8 로 작성하였다. package org.test.ch5; import java.io.Serializable; import java.util.Arrays; import java.util.Map; import org.apache.log4j.PropertyConfigurator; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.classification.LogisticRegressionModel; import org.apache.spark.mllib.classification.LogisticRegres.. 2016. 5. 7.
Spark 시작하기19 - [Spark와 머신 러닝] 4장 스파크를 이용한 추천 엔진 구현 scala로 짜여진 소스코드를 java8 로 작성하였다. package org.test.ch4; import java.io.Serializable; public class MyTuple2 implements Comparable, Serializable{ private static final long serialVersionUID = 1L; private K key; private V value; public MyTuple2(K key, V value){ this.key = key; this.value = value; } public K getKey() { return key; } public void setKey(K key) { this.key = key; } public V getValue() { re.. 2016. 5. 4.
Spark 시작하기18 - [Spark와 머신 러닝] 3장 스파크를 이용한 데이터 수집, 프로세싱, 준비2 python으로 짜여진 소스코드를 java8 로 작성하였다. package org.test.ch3; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.Date; import java.util.LinkedHashMap; import java.util.List; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.log4j.PropertyConfigurator; import org.apa.. 2016. 5. 4.
Spark 시작하기17 - [러닝 스파크] 7장 클러스터에서 운영하기 spark를 이용한 클러스터,,, 일단 1PC에서 마스터 1개, 워커 여러개를 cmd 명령어로 각각 실행시키고,D:\java_util\spark\spark-1.6.0-bin-hadoop2.6\bin\spark-class org.apache.spark.deploy.master.MasterD:\java_util\spark\spark-1.6.0-bin-hadoop2.6\bin\spark-class org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077D:\java_util\spark\spark-1.6.0-bin-hadoop2.6\bin\spark-class org.apache.spark.deploy.worker.Worker spark://192.168.. 2016. 4. 26.
Spark 시작하기16 - [러닝 스파크] 6장 고급 스파크 프로그래밍 람다식 안에서 클로저 작동을 원활하게 하기 위해 어큐뮬레이터, 브로드캐스트 를 사용한다. package org.mystudy; import java.io.File; import java.io.FileNotFoundException; import java.io.Serializable; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.Scanner; import java.util.regex.Pattern; import org.apache.log4j.PropertyConfigurator; import org.apache.spark.Accumulator; import org.apache.spar.. 2016. 4. 26.
Spark 시작하기15 - [러닝 스파크] 5장 데이터 불러오기/저장하기 package org.mystudy.example.ch5; import java.io.StringReader; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.log4j.PropertyConfigurator; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.. 2016. 4. 26.
Spark 시작하기13 - [러닝 스파크] 4장 키/값 페어로 작업하기2 package org.mystudy; import static org.MyConf.s; import java.io.Serializable; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import com.google.common.base.Optional; import org.MyConf; import org.apache.commons.lang3.StringUtils; import org.apache.spark.api.java.JavaDoubleRDD; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impo.. 2016. 4. 22.