본문 바로가기
기타 도서 리뷰/시작하세요 하둡 프로그래밍

시작하세요 하둡 프로그래밍 17,18,19 하이브, 스쿱, 타조

by java개발자 2016. 12. 8.

17장 하이브


로컬 또는 HDFS 에 있는 데이터를

HDFS로 Hive방식의 데이터로 업로드해서

Hive로 select(집계 group by, join, order by) 등을 할 수 있다.

한마디로 대용량 Table 이다.


2009년 페이스북은 페타바이트(1페타=1000테라=1000*1000기가) 규모의 데이터를 하이브로 처리한다고 한다. (564p)

> 그러니, 왠만한 데이터는 그냥 RDBMS 사용하고, 오라클 튜닝기법을 먼저 공부하는 것이 순서인것 같다.


18장 스쿱


ELK Stack 중 Logstash 가 있다.

데이터의 변경사항을 감시해서 또 다른 곳에 적용해주는 중개자 역할이다.

예를 들어 RDBMS 의 트랜잭션을 감시해서 변경사항이 있으면 elasticsearch에 적용해 줄 수 있다.


하둡에도 이와 비슷한 기능을 하는 것이 스쿱이다.

감시까지는 아니지만

RDBMS의 데이터를 HDFS로 또는 반대로 이관할 수 있게 해준다.





------------------------------------------------------------------

* 아파치 더비

Derby vs. SQLite

http://db-engines.com/en/system/Derby%3BSQLite














-------------------------------------------------