最近Nutchをちまちまと調査中なので、その成果を貼ってみる。
Apache Nutch調査録
http://www.mwsoft.jp/programming/nutch/
なっちゃんは割とドキュメントが不足気味な子なので、この内容でもそれなりに役立つと思ってくれる人もいるんじゃないだろうか。
Nutchの作るインデックスがイマイチなので、現状はParseTextだけダンプして自前でCJKAnalyzer使ってLuceneに入れるというひどい処理をしている。
これではせっかくのNutchのMapReduce力も活かせないのでプラグイン使う形に書き直したいところ。しかしプラグインのところがまだイマイチわかっていない。