Hadoopでテキストを扱う際にLuceneのTokenizerで単語分割してみる
http://www.mwsoft.jp/programming/hadoop/mapreduce_with_lucene_filter.html
単語抽出の時とか普通に使えそうだった。
Luceneのフィルタ一覧
http://www.mwsoft.jp/programming/lucene/lucene_filter.html
上のHadoopの記事を書くにあたって下準備として調べたもの。
MapReduceでの平均値の算出
http://www.mwsoft.jp/programming/hadoop/average_mapreduce.html
子象本は読みましたアピールその2。でもアレとアレとアレとアレも書いとかないとアピール度的に低いな。
LuceneのIndexファイルに関するメモ書き
http://www.mwsoft.jp/programming/lucene/lucene_index_memo.html
インデックスディレクトリに作成されるいくつかのファイルについて中身を見てみた。