본문 바로가기
Spark/러닝 스파크

Spark 시작하기06 - [러닝스파크] 로 전환

by java개발자 2016. 4. 4.

[Spark와 머신 러닝] 책으로 3장까지 공부하면서,,,

파이썬 소스를 JAVA8로 전환하면서,,, 자연스럽게 많은 공부와 에러를 만나게 되었다.


항상...

 왜 안되지?????? 라는 의문을 가진채..


그도그럴것이...

파이썬 소스는 완전 단축적이고, 데이터의 제너릭같은 것도 없고,

파이썬 자체 라이브러리도 사용하다보니..


그걸 다 맞춰가면서 JAVA8로 변형하는 것은 쉽지만은 않았다.


그러면서 결국...


RDD 의 소중함!!!을 알게 되었다.


RDD 가 핵심이구나..


[러닝스파크] 에서 말했던 RDD 가 이런거구나 라는 것을 체감하게 되었다.

처음 [러닝스파크] 를 읽었을 때는,,, 뭐가 뭔가 하나도 몰랐는데...


역시 개발자는...


된다고 하는게... 안되는 현상을 경험하면서,,, 배우나 보다.


[Spark와 머신 러닝] 으로 고군분투 했던 과정들이...결국은 RDD를 정확히 알아야 겠다라는 동기부여를 제공해 주었다.


>>


RDD의 함수들을 알아야 하고,

그 함수들의 결과를 미리 정확히 예측할 수 있어야 한다.

그래야,,, 데이터 마이닝이 가능하다.


SPARK 에서는 컴파일 오류가 안난다고 만족할 수 없다는 거다.


문제는... 런타임에러가 난다는 것-_-;;;


>>


[Spark와 머신 러닝] 의 4장 추천시스템을 배우기 전에...

[러닝스파크] 로 기초를 닦아야 겠다.


RDD를 알아야 겠다.!!!