WikipediaとTwitterで使われている漢字上位3000を出してみる
http://www.mwsoft.jp/programming/nlp/cjk_count.html
MahoutでNaiveBayesしたメモ
http://www.mwsoft.jp/programming/mahout/naive_bayes.html
Mahoutのlucene.vectorを使ってみる
http://www.mwsoft.jp/programming/mahout/lucene_vector.html