Solrを組み込んだCloudera Searchやら、高速な処理を可能とするImpalaやら、いろいろと新しい子分が出来て大所帯になっているようだ。とりあえず子分だけ眺めてみる。
Hadoop
説明の必要もない、Clouderaファミリーのゴッドファーザー。HDFSやMRを含む。
Flume
ログ収拾フレームワーク。ビッグデータの代表格である大量のログを、うまいことHDFSやHBaseに取り込む。
HBase
BigTableライクな列指向データベース。MapReduceみたいなバッチ処理ではなく、リアルタイムにデータをRead/Writeできる。
Hive
スキーマをあらかじめ定義しておいて、SQLライクなクエリでMapReduceできる子。マスコットがかわいくない。
Mahout
男の浪漫である分散機械学習を実現するフレームワーク。線形分離、クラスタリング、レコメンド等いろいろできる。
Oozie
Hadoopの連続した処理を行うワークフローを定義したりスケジューリングしたり。
Pig
Hiveのライバル。Hiveよりもプログラムライクな書き方をする。マスコットはやっぱりかわいくない。
Sentry
HiveやImpalaでユーザ権限を設定できるものらしい。
Sqoop
RDBからHDFSやHive、HBaseなんかにデータを転送する為のツールらしい。
Whirr
クラウドサービスを運用する為のライブラリ。EC2とかにも対応しているらしい。
ZooKeeper
分散システム開発用フレームワーク。HBaseとかSolrCloudとかで使われてる。
Hue
Hadoopを操作する為のUI。HiveとかImpalaとかも扱える。
Impala
GoogleのDremelを参考に作られた列指向ストレージフォーマット。MapReduceは用いずHDFSに対して利用しても高速だとか。
Cloudera Search
SolrとHDFSとかHBaseを組み合わせた全文検索エンジンで、ほぼリアルタイムの更新が可能とかなんとか。
DataFu
LinkedIn提供のHadoopやPigで動くページランクとか集合演算なんかの一般的な処理を関数化したもの。
Cloudera Development Kit
よくわからない。
Avro
データシリアライズ系の何か。Clouderaのファミリーじゃないけど、いろいろ使われているようなので。Thrift、Protocol Buffers、Avroと並ばれるとどこで何を使うべきか混乱する。
ざっと見て、Hadoop、HBase、Hive、Zookeeperあたりは抑えておくとして(Yarnはどうしようかな)、個人的にはFlume、Hue、Impala、Cloudera Searchあたりが気になった。この辺を今後もう少し調べてみよう。