2013年10月02日

最近のClouderaさんのプロジェクトを眺める

ここ1年くらい象さんと会う機会がなく疎遠になっていたのだけど、先日、久々に街でClouderaさんを見かけたらなんか1年前と雰囲気が違っていたので、少しだけ様子を眺めてみた。

Solrを組み込んだCloudera Searchやら、高速な処理を可能とするImpalaやら、いろいろと新しい子分が出来て大所帯になっているようだ。とりあえず子分だけ眺めてみる。




Hadoop


説明の必要もない、Clouderaファミリーのゴッドファーザー。HDFSやMRを含む。



Flume


ログ収拾フレームワーク。ビッグデータの代表格である大量のログを、うまいことHDFSやHBaseに取り込む。



HBase


BigTableライクな列指向データベース。MapReduceみたいなバッチ処理ではなく、リアルタイムにデータをRead/Writeできる。



Hive


スキーマをあらかじめ定義しておいて、SQLライクなクエリでMapReduceできる子。マスコットがかわいくない。



Mahout


男の浪漫である分散機械学習を実現するフレームワーク。線形分離、クラスタリング、レコメンド等いろいろできる。



Oozie


Hadoopの連続した処理を行うワークフローを定義したりスケジューリングしたり。



Pig


Hiveのライバル。Hiveよりもプログラムライクな書き方をする。マスコットはやっぱりかわいくない。



Sentry


HiveやImpalaでユーザ権限を設定できるものらしい。



Sqoop


RDBからHDFSやHive、HBaseなんかにデータを転送する為のツールらしい。



Whirr


クラウドサービスを運用する為のライブラリ。EC2とかにも対応しているらしい。



ZooKeeper


分散システム開発用フレームワーク。HBaseとかSolrCloudとかで使われてる。



Hue


Hadoopを操作する為のUI。HiveとかImpalaとかも扱える。



Impala


GoogleのDremelを参考に作られた列指向ストレージフォーマット。MapReduceは用いずHDFSに対して利用しても高速だとか。



Cloudera Search


SolrとHDFSとかHBaseを組み合わせた全文検索エンジンで、ほぼリアルタイムの更新が可能とかなんとか。



DataFu


LinkedIn提供のHadoopやPigで動くページランクとか集合演算なんかの一般的な処理を関数化したもの。



Cloudera Development Kit


よくわからない。



Avro


データシリアライズ系の何か。Clouderaのファミリーじゃないけど、いろいろ使われているようなので。Thrift、Protocol Buffers、Avroと並ばれるとどこで何を使うべきか混乱する。



ざっと見て、Hadoop、HBase、Hive、Zookeeperあたりは抑えておくとして(Yarnはどうしようかな)、個人的にはFlume、Hue、Impala、Cloudera Searchあたりが気になった。この辺を今後もう少し調べてみよう。