2013年10月15日

Cloudera QuickStart VMと戯れ中

最近、CDH4がVM上で試せるCloudera QuickStart VMと戯れている。先日はこんなの書いた。

VirtualBoxでCloudera QuickStart VM(CDH4)を動かしてみる
http://www.mwsoft.jp/programming/hadoop/cdh4_virtualbox.html

Mint上で動かしてるけど、今のところ動作はすこぶる快調。Ubuntu上で動かしてた時より良い気がする。今後は開発はこれで行こう。


個人的にまずImpalaが試したかったので、その辺りと戯れている。

ImpalaはGoogleが論文で公開したDremelを実装したもので、大量データに対して高速にクエリを実行できるのが特徴になっている。

詳細は下記論文に載っている。絵だけ見てもなんとなくイメージが伝わると思う。

Dremel: Interactive Analysis of Web-Scale Datasets
http://research.google.com/pubs/pub36632.html

簡易な集計とかはできるとして、どの程度のことがクエリで実現できるのかは今後見ていきたい。