2010年12月25日
クリスマスの表記揺れ
そこでTwitterの日本語のツイートを適当に収集するクローラを作り、12月24日に回してみて、クリスマスという言葉が何回くらい発生するか調べてみることにした。
1日回したら、100万ツイート(重複なし)ほどを収集することができた。その100万に対してこのコマンドを打つとどうなるか。
$ grep クリスマス tweet_20101224 | wc -l
さて、結果はいくつと表示されたでしょう?
続きを読む
2010年12月23日
弁当箱サイズのパソコンを買ってみる
別にDellでなくても良かったのだけど、サポートが付いていた方が好ましい要件だったのと、いろいろ通販サイトで選んでいた時に見た目でぐっと来てしまったことから、これになった。
続きを読む
2010年12月20日
IgoのLucene用Analyzerを使ってみた
というわけでIgoのダウンロードページにLucene用のAnalyzerがいたから使ってみた記録。
http://www.mwsoft.jp/programming/munou/igo_lucene.html
そんなことを書いていたらいつの間にか4時近い。おかしい。さっきまで0時じゃなかった?
さすがにヤバいのでもう寝よう・・・
2010年12月19日
ファイルからURLを抽出するいい加減なRubyソース
そういえばRubyのURLって新しいRFC使ってたっけ。URI.parseすると現行で使われているURLも弾いたりする。
続きを読む
2010年12月18日
Java製形態素解析エンジン「Igo」を試してみた
慣れているCJKAnalyzerでさくっと設定しようかと思ったけど、せっかくなのでここはLucene用のAnalyzerも用意されているらしいJava製形態素解析機のIgoに手を出してみることにした。
というわけで、Igoをインストールしたり、ざくっとソース眺めて感想らしきものを書いてみた。
Java製形態素解析エンジン「Igo」を試してみる
http://www.mwsoft.jp/programming/munou/igo_install.html
2010年12月16日
Nutchで指定URLだけFetch
今回はリンクを辿らずInjectしたURLだけFetchするという、「それはNutchの仕事か?」と思えるような微妙な処理をするための設定を探ってみた。
http://www.mwsoft.jp/programming/nutch/inject_crawl.html
そんなことをしていたらいつの間にか3時を過ぎていた。もう寝なければ・・・
2010年12月13日
Apache Nutch調査録作成中
Apache Nutch調査録
http://www.mwsoft.jp/programming/nutch/
なっちゃんは割とドキュメントが不足気味な子なので、この内容でもそれなりに役立つと思ってくれる人もいるんじゃないだろうか。
Nutchの作るインデックスがイマイチなので、現状はParseTextだけダンプして自前でCJKAnalyzer使ってLuceneに入れるというひどい処理をしている。
これではせっかくのNutchのMapReduce力も活かせないのでプラグイン使う形に書き直したいところ。しかしプラグインのところがまだイマイチわかっていない。
2010年12月05日
静音化の基礎テクニック「隣の部屋」の実演
こういう状況に出くわすと、人間は静音化への道を歩き出す。でも静音化は凝りだすとキリがない。
そこで、大掃除のついでにちょっと部屋の模様替えをするだけで、お金を使わずに効果が望める静音化の代表的な技法の1つ、「隣の部屋」を使ってみることにした。
続きを読む
2010年12月03日
2010年11月下旬私的ピックアップ
先月下旬はいまさらですがHBaseにハマってました。やってることがどんどん裏方の方へ裏方の方へと行っている昨今。あっ、でもLiftもちょっとだけやった。
続きを読む