본문 바로가기

기타 도서 리뷰16

2017년 9월 아파치 프로젝트 리스트 출처: https://apache.org/ APACHE PROJECT LIST BY NAMEHTTP ServerAAccumuloACEActiveMQAiravataAlluraAmbariAntAny23ApexAPRArchivaAriesArrowAsterixDBAtlasAuroraAvroAxisBBahirBeamBigtopBloodhoundBookKeeperBrooklynBuildrBValCCalciteCamelCarbondataCassandraCayenneCelixChemistryChukwaClerezzaCloudStackCocoonCommonsCordovaCouchDBCreadurCrunchcTAKESCuratorCXFDDBDeltaSpikeDirectoryDrillEEagleEmpire-dbFFalcon.. 2017. 9. 20.
머신러닝 모델 선정 가이드 출처 : http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 2016. 12. 10.
시작하세요 하둡 프로그래밍 17,18,19 하이브, 스쿱, 타조 17장 하이브 로컬 또는 HDFS 에 있는 데이터를HDFS로 Hive방식의 데이터로 업로드해서Hive로 select(집계 group by, join, order by) 등을 할 수 있다.한마디로 대용량 Table 이다. 2009년 페이스북은 페타바이트(1페타=1000테라=1000*1000기가) 규모의 데이터를 하이브로 처리한다고 한다. (564p)> 그러니, 왠만한 데이터는 그냥 RDBMS 사용하고, 오라클 튜닝기법을 먼저 공부하는 것이 순서인것 같다. 18장 스쿱 ELK Stack 중 Logstash 가 있다.데이터의 변경사항을 감시해서 또 다른 곳에 적용해주는 중개자 역할이다.예를 들어 RDBMS 의 트랜잭션을 감시해서 변경사항이 있으면 elasticsearch에 적용해 줄 수 있다. 하둡에도 이와 .. 2016. 12. 8.
시작하세요 하둡 프로그래밍 9장 하둡 운영 하둡을 공부하면서 생각이 점점 무거워진다.하둡을 공부하는 것이 맞을까? 더군다나 노트북 1대에 virtualbox로 가상 centos를 6대나 설치해놓고, 테스트 하는 것이 과연 합리적인가?1T 또는 100T 정도의 데이터를 분석해야 하는데, 정작 10G를 테스트하면서도 버벅대고 있다. 8장까지 오면서,하둡에서 제공하는 기능이그리 특별하지 않다는 사실을 깨닫게 된다. 오히려 Spark나 R처럼 또는 RDBMS처럼 화려한 기능이 없다.1 hdfs에 파일을 분산해서 저장하고2 맵리듀스 기능을 제공한다.(Java8이나 Spark RDD에서는 굉장히 쉽게 구현 가능하다.)3 정렬기능4 조인기능을 제공하는 정도이다.(3,4번도 결국은 Hive의 SQL로 대체할 수 있다.)그 외는 대부분 환경세팅, 에코 시스템에 .. 2016. 12. 8.
설치과정 - 시작하세요 하둡프로그래밍 5장 - 데이터노드 추가하기(5PC, 6PC) 성능 향상을 위해 2개의 PC를 더 추가한다1PC : 네임노드2PC : 보조네임노드, 데이터노드3PC : 데이터노드4PC : 데이터노드5PC : 데이터노드6PC : 데이터노드 ---------------------------------------------------------------------------------- 2 호스트파일 변경(1,2,3,4,5,6PC)vi /etc/hosts192.168.0.7 wikibooks01192.168.0.8 wikibooks02192.168.0.9 wikibooks03192.168.0.10 wikibooks04192.168.0.11 wikibooks05192.168.0.12 wikibooks06 5 SSH 설정(1PC에서만)1PC에서hadoop > ssh-cop.. 2016. 12. 7.
시작하세요 하둡프로그래밍 5장 미국 항공편 운항 통계 데이터 다운로드http://stat-computing.org/dataexpo/2009/ download.sh-------------------------------------#! /bin/sh for ((i=1987; i $i_temp.csvmv $i_temp.csv $i.csvdone------------------------------------- 로컬(윈도우)에서 작성하고, FTP로 리눅스로 복사해서 그런지 소유자가 root 이다.소유자 변경 : chown http://mintnlatte.tistory.com/279hadoop > chown hadoop:hadoop dataexpo -Rhadoop/dataexpo > chmod 755 download.sh *배치실행[hadoo.. 2016. 12. 6.
시작하세요 하둡프로그래밍 4장 read a bookwrite a book /home/hadoop/hadoop-1.2.1 > ./bin/hadoop fs -put input2.txt input2.txt/home/hadoop/hadoop-1.2.1 > ./bin/hadoop jar hadoop-beginner-examples-1.0.jar wikibooks.hadoop.chapter04.WordCount input2.txt wordcount_output2 //정상로그[hadoop@wikibooks01 hadoop]$ ./bin/hadoop jar hadoop-beginner-examples-1.0.jar wikibooks.hadoop.chapter04.WordCount input2.txt wordcount_output216/12/06 1.. 2016. 12. 6.
시작하세요 엘라스틱서치 - 정리 의미 Method URL BODY http://localhost:9200 생성 id로 도큐먼트 생성 POST, PUT /books/book/1 { "title" : "Elasticsearch Guide", "author" : "Kim", "date" : "2014-05-01", "pages" : 250 } 도큐먼트 데이터 확인 GET /books/book/1 임의의 id로 도큐먼트 생성 POST (PUT은 안됨) /books/book { "title" : "Elasticsearch Guide", "author" : "Kim", "started" : "2014-05-1", "pages" : 250 } 도큐먼트 수정 PUT /books/book/1 { "title" : "Elasticsearch Guide".. 2016. 12. 6.