2012年02月26日
日記的なもの
http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html
これは自サイトの全文書をSolrに放り込んで、上記URL内でも使っているMoreLikeThisでスコアが高いもの上位5件抽出したもの。
VPSにSolrのサーバ立てても良かったんだけど、ページを呼ばれるたびに毎回MoreLikeThisリクエストが来てもらっても困るので、全ページの結果をJSON形式で保存して読み込むようにした。
新しい記事を書くたびに再生成しないといけないのが面倒だけど、自動化して流せるようにしておけばそれほど手間でもない。実行時間も今のところ30秒くらい。
続きを読む
2012年02月21日
MoreLikeThisで遊んでみた
http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html
今週は確定申告の準備をすると言ったな。あれは嘘だ。
いや、ちゃんとやるつもりでCalc開いて入力とかも始めたんですけどね。
気がついたら上のようなものを書いてました。
おかしいなぁ。
2012年02月19日
日記的なもの
H2+Lucene+形態素解析で全文検索しようとしたメモ
http://www.mwsoft.jp/programming/lucene/lucene_h2.html
結論としてうまくいかなかったけど、この手の情報を必要としている人もいるのではないかと思ったので、とりあえず貼っておく。
先週は上記のこと戯れているうちに過ぎてしまい、ノルマを果たせず。まぁ、勉強にはなったからいいや。
今週からは確定申告の準備を始めるので休業予定。作業の8割くらいは知り合いにお願いして済ませてあるので、今週中にはなんとか終わるといいなぁといった感じ。
さっさと終わらせてプログラミングに戻ろう。
続きを読む
2012年02月15日
メモ書き(CDH4 b1とか)
HadoopとLuceneとNutchの名前の由来
http://www.mwsoft.jp/programming/hadoop/where_come_from.html
で、本題。CDH4のベータ版が出たらしいので適当にメモ書き。
続きを読む
2012年02月12日
2012年02月11日
Solrjのサンプルコードをいろいろ書いてみた
Solrjサンプルコード集
http://www.mwsoft.jp/programming/lucene/solrj.html
けっこう頑張って書きました。でも、今ひとつまだSolrさんの中身を把握しきれてない。情報の変化がけっこう激しいし。
もう少し仲良くなりたい。気兼ねなく休日に誘えるくらい。
「今週末、一緒にMoreLikeThisしに行かない?」
2012年02月07日
Twitter4JでTweetを収集してみる
Twitter4JでTweetを収集してみる
http://www.mwsoft.jp/programming/java/twitter4j.html
GeoLocationが何で検索してるのか良く分からなかったけど、興味ないからいいや。
個人的には「登録してあるユーザとハッシュタグについて今日1日分の情報を収集して、その中に含まれてるリンクを並べて表示」みたいなことをしている。
情報収集ツールとしてはけっこうありがたい。あと、不自然言語好きな人も重宝してそう。
2012年02月04日
2012年02月03日
プログラマ文庫更新
プログラマ文庫
http://www.mwsoft.jp/column/novel/
原文以上に宗教的になってしまった感があるけど、思った通りなんでもいけそうだということが分かった。
2012年02月02日
Java製形態素解析器「Kuromoji」を試してみる
Java製形態素解析器「Kuromoji」を試してみる
http://www.mwsoft.jp/programming/lucene/kuromoji.html
Luceneの状況とかを見極めてから手を出した方が良かった気もした。すぐに記事の修正が必要になりそうな気がする。
あと、ソースが読みやすかった。