2010年02月17日
Wikipediaのカテゴリに触れてみる
Wikipediaカテゴリ一覧
http://www.mwsoft.jp/programming/munou/data/wikipedia_category/
続きを読む
2009年12月09日
象さん育成記録2
HDFSシェルコマンド実行メモ
http://www.mwsoft.jp/programming/hadoop/hadoop_hdfs_command.html
メモ書きなので、あまりちゃんとまとめてないです。もう少し自信持って書けるくらい勉強したら、ちゃんと書き直すかも。
2009年12月03日
象さん育成記録
とりあえずインストールした際のコマンドのログを整形したもの
http://www.mwsoft.jp/programming/hadoop/hadoop_install.html
続きを読む
2009年11月23日
IMEとかATOKの辞書も1つの集合知かも
フリーのIME・ATOKユーザ辞書リンク集
http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html
Vectorを探して回ったりググって回ったりして集めた、IMEとかATOKのユーザ辞書です。
続きを読む
2009年11月15日
Wikipediaのダウンロードデータの説明
Wikipediaのダウンロードデータファイル一覧
http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html
これだけの規模の情報をあっさりダウンロードできたりすると、良い世の中になったものだなぁと思えます。
10年後にはもっと凄い集合知データとか出ていたりするのでしょうか。あまり想像できないけど、きっとできるのだろうなぁ。
2009年11月04日
はてなキーワードからMeCab辞書を生成する(Ruby版)
はてなキーワードからMecCab辞書を生成する(Ruby版)
http://www.mwsoft.jp/programming/munou/mecab_hatena.html
他のブログでやっていた手法を参考に、いろいろ解説を入れつつMeCabの辞書を生成してみました。
最近、風邪のせいで作業速度が減退中。予定なら今週の初めには新しいコンテンツが出来ているはずだったのに、いつ作り終えられることか。
悔しいですね。気力に体力が追いついてくれないというのは。
2009年10月25日
MeCab辞書実演比較WEBアプリ
というわけで、今日作った代物。
IPA、NAIST、UniDic、JUMANの辞書実演比較
http://www.mwsoft.jp/programming/munou/mecab_dic_perform.html
複数の辞書で解析をして、その結果を並べて出力するページです。結局どの辞書がいいのさって思った人が直感的に選べるようにという意図で作りました。
続きを読む
2009年10月21日
MeCabのコスト計算に関する説明記事を書いてみた
日本テレビ東京で学ぶMeCabのコスト計算
http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html
最近、MeCabばかりですね。これまでアレやってコレやってと手を伸ばし過ぎていたので、こうやって1つのことに打ち込めるというのは良いことのような気がします。
ところで話し変わりますが、最近、時計がおかしいのですよ。今日は21時くらいから上の記事を書き始めたのですけど、気が付けば時計が3時過ぎを指していまして。なんなんだ、この突風のような時間の過ぎ方は。
2009年10月20日
IO.popenを使ったmecab-ruby風なモジュール(書きかけ)
参考にさせて頂いた下記ページによると、バインディングとpopenの速度差は3.1倍だそうですが、その辺は目を瞑ることにします。
【参考サイト】Mecabはバインディングで3.1倍速くなる
http://d.hatena.ne.jp/kj-ki/20090609/p1
続きを読む
2009年10月17日
MeCabのコマンドライン引数一覧
MeCabのコマンドライン引数一覧とその実行例
http://www.mwsoft.jp/programming/munou/mecab_command.html
分からないところは浅くソースも読んで調べてみたけど、読みやすい綺麗なソースだった。後でもう少し深く読んでおこう。
2009年10月12日
MeCabをさくらのレンタルサーバで使う
さくらのレンタルサーバでMecabを使用する
http://www.mwsoft.jp/programming/munou/mecab_sakura.html
インストール手順とかです。
これでいいのかと言われると、うーんという感じですが。
MeCab、辞書、mecab-rubyのインストール手順
とりあえず、インストール手順等を書いてみた。
LinuxにMeCabとmecab-rubyをインストールする
http://www.mwsoft.jp/programming/munou/mecab_linux.html
MeCabだけでなく、IPA、NAIST、UniDicあたりの辞書を入れたり、良く使う引数の説明や、簡易な比較用モジュールを載せています。
2009年05月27日
2550億単語に後ろ髪引かれてみる
すると、Googleが膨大な量のn-gramのデータを公開していることが分かった。公開したのはもう2年も前の話らしい。こういう系統のニュースはけっこう見ていたつもりだったのだけど覚えていない。見逃したか、それとも当時は興味が薄かったから記憶からデリートされたか。
大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html
>このたび、Web から抽出した約200億文(約2550億単語)の
>日本語データから作成したn-gramデータ(1〜7 gram)を
>公開致しました。
だそうです。2550億単語。未知の世界です。ひょっとしたら人の頭の中にはそれに近い単語数が埋まっているのかもしれないけど。
モノ自体は言語資源協会にて有料で配布しているそうです。商用利用不可、学術目的限定で、お値段たったの42,000円。
http://www.gsk.or.jp/catalog.html
大学とかで使うなら予算も気軽に申請できるような値段だけど、個人で買うにはちと高い。でも、払えなくもない。
ついでに気になる容量の方は、DVD6枚で、gzip圧縮済みで、たったの26GB。
なんとも萌え系の容量です。圧縮して26Gの文字データとか言われると、少し興奮しますよね。
2009年05月22日
作りたいソフトウェア
■目標
全米が泣くようなブログを自動で書いてくれるソフトウェア。
メールを受信するといい感じに返信してくれるソフトウェア。
■名前
プロジェクト名を「Kotoko」と名づける。
女性のイラストと一緒に公開すれば人気が出るに違いない。
■やること1
言語の連想モデルを作る。
とりあえずニューラルなのとSVMを調べてみたけど、イマイチ。
手馴れたところでデータベース(SQLite)と、フルテキスト検索(Sennaとか?)を使うことになるだろうから、そこで実現できそうなモデルを作る。頭の中にあることを実現しようとすると、酷く冗長で、言葉だけで何ギガも使いそうな状態が想像される。「花」という1つの言葉をSELECTすると1MB分のデータが湧いて出てくるような。
■やること2
文章を蓄積する。
読み込ませる文章によって性格がズレそうなので、「Kotoko」という名前に合いそうな文章を読ませたい。確か青空文庫に斜陽がいたか。あとは上品な感じのブログ書いてる人を探して、全エントリー読ませたりする。
ということで、ブログのTOPから全エントリーを探査して本文のみをデータベース化する処理をさっさと作っておく。ついでに簡易な上品判定スクリプトも書いておく。
■やること3
日記を書いて、「Kotoko」に読み込ませて、それを言い換えるプログラムを作る。
「今日は二日酔いで会社に行った。昼過ぎまでけっこう辛かった」と書いたら、「今日、例のブログ書いてる人は二日酔いでふらふらしながら会社に行ったらしい。仕事に対して不誠実です。後で殴っておきます」と出力してくれる感じ。
■やること4
連想モデルと文章データベースを利用して、1つのテーマを広げて文章を書かせてみる。ワードサラダにならないように注意。