2010年02月17日

Wikipediaのカテゴリに触れてみる

Wikipediaのカテゴリと、そこに含まれる単語の関係を体感してみたくなったので、さらっとこんなものを作る。

Wikipediaカテゴリ一覧
http://www.mwsoft.jp/programming/munou/data/wikipedia_category/

続きを読む

2009年12月09日

象さん育成記録2

Hadoop関連のメモ書きその2

HDFSシェルコマンド実行メモ
http://www.mwsoft.jp/programming/hadoop/hadoop_hdfs_command.html

メモ書きなので、あまりちゃんとまとめてないです。もう少し自信持って書けるくらい勉強したら、ちゃんと書き直すかも。

2009年12月03日

象さん育成記録

Hadoopの勉強中なので、その辺の記録をちまちまと残そうかと。

とりあえずインストールした際のコマンドのログを整形したもの
http://www.mwsoft.jp/programming/hadoop/hadoop_install.html

続きを読む

2009年11月23日

IMEとかATOKの辞書も1つの集合知かも

週末に(英語に飽きて)作ったもの。

フリーのIME・ATOKユーザ辞書リンク集
http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html

Vectorを探して回ったりググって回ったりして集めた、IMEとかATOKのユーザ辞書です。


続きを読む

2009年11月15日

Wikipediaのダウンロードデータの説明

Wikipediaからダウンロードできるファイルを見て、「こんな情報が入ってます」とか「こんなことに使えそう」といった話をまとめてみました。

Wikipediaのダウンロードデータファイル一覧
http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html

これだけの規模の情報をあっさりダウンロードできたりすると、良い世の中になったものだなぁと思えます。

10年後にはもっと凄い集合知データとか出ていたりするのでしょうか。あまり想像できないけど、きっとできるのだろうなぁ。

2009年11月04日

はてなキーワードからMeCab辞書を生成する(Ruby版)

ちょっと前に書いた記事だけど、ブログで告知し忘れてた。


はてなキーワードからMecCab辞書を生成する(Ruby版)
http://www.mwsoft.jp/programming/munou/mecab_hatena.html

他のブログでやっていた手法を参考に、いろいろ解説を入れつつMeCabの辞書を生成してみました。


最近、風邪のせいで作業速度が減退中。予定なら今週の初めには新しいコンテンツが出来ているはずだったのに、いつ作り終えられることか。

悔しいですね。気力に体力が追いついてくれないというのは。

2009年10月25日

MeCab辞書実演比較WEBアプリ

今日は二日酔いのちMeCabな1日でした。

というわけで、今日作った代物。

IPA、NAIST、UniDic、JUMANの辞書実演比較
http://www.mwsoft.jp/programming/munou/mecab_dic_perform.html

複数の辞書で解析をして、その結果を並べて出力するページです。結局どの辞書がいいのさって思った人が直感的に選べるようにという意図で作りました。


続きを読む

2009年10月21日

MeCabのコスト計算に関する説明記事を書いてみた

MeCabのコスト計算がどう行われているのか、きちんと理解していなかったので、勉強がてらに説明資料を作ってみた。


日本テレビ東京で学ぶMeCabのコスト計算
http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html


最近、MeCabばかりですね。これまでアレやってコレやってと手を伸ばし過ぎていたので、こうやって1つのことに打ち込めるというのは良いことのような気がします。


ところで話し変わりますが、最近、時計がおかしいのですよ。今日は21時くらいから上の記事を書き始めたのですけど、気が付けば時計が3時過ぎを指していまして。なんなんだ、この突風のような時間の過ぎ方は。

2009年10月20日

IO.popenを使ったmecab-ruby風なモジュール(書きかけ)

レンタルサーバだとmecab-rubyを入れるのに何かと手間がかかるので、IO.popenで呼ぶソースを書いてみた。

参考にさせて頂いた下記ページによると、バインディングとpopenの速度差は3.1倍だそうですが、その辺は目を瞑ることにします。

【参考サイト】Mecabはバインディングで3.1倍速くなる
http://d.hatena.ne.jp/kj-ki/20090609/p1

続きを読む

2009年10月17日

MeCabのコマンドライン引数一覧

MeCabをコマンドラインから使った場合の機能を把握しておきたく、とりあえず「mecab -h」した時に出てきた引数を全部試してみた。

MeCabのコマンドライン引数一覧とその実行例
http://www.mwsoft.jp/programming/munou/mecab_command.html

分からないところは浅くソースも読んで調べてみたけど、読みやすい綺麗なソースだった。後でもう少し深く読んでおこう。

2009年10月12日

MeCabをさくらのレンタルサーバで使う

MeCab関連のフィードバックその2です。

さくらのレンタルサーバでMecabを使用する
http://www.mwsoft.jp/programming/munou/mecab_sakura.html

インストール手順とかです。

これでいいのかと言われると、うーんという感じですが。

MeCab、辞書、mecab-rubyのインストール手順

MeCabを触った際の情報を、少しずつ残せないか試みてみる。

とりあえず、インストール手順等を書いてみた。

LinuxにMeCabとmecab-rubyをインストールする
http://www.mwsoft.jp/programming/munou/mecab_linux.html

MeCabだけでなく、IPA、NAIST、UniDicあたりの辞書を入れたり、良く使う引数の説明や、簡易な比較用モジュールを載せています。

2009年05月27日

2550億単語に後ろ髪引かれてみる

最近、私もようやく言葉に興味を持つ年頃(おそらく3歳ぐらい)になったので、文字に対する良いデータがないかと思って探していた。

すると、Googleが膨大な量のn-gramのデータを公開していることが分かった。公開したのはもう2年も前の話らしい。こういう系統のニュースはけっこう見ていたつもりだったのだけど覚えていない。見逃したか、それとも当時は興味が薄かったから記憶からデリートされたか。


大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html

>このたび、Web から抽出した約200億文(約2550億単語)の
>日本語データから作成したn-gramデータ(1〜7 gram)を
>公開致しました。

だそうです。2550億単語。未知の世界です。ひょっとしたら人の頭の中にはそれに近い単語数が埋まっているのかもしれないけど。


モノ自体は言語資源協会にて有料で配布しているそうです。商用利用不可、学術目的限定で、お値段たったの42,000円

http://www.gsk.or.jp/catalog.html

大学とかで使うなら予算も気軽に申請できるような値段だけど、個人で買うにはちと高い。でも、払えなくもない。

ついでに気になる容量の方は、DVD6枚で、gzip圧縮済みで、たったの26GB

なんとも萌え系の容量です。圧縮して26Gの文字データとか言われると、少し興奮しますよね。

2009年05月22日

作りたいソフトウェア

作りたいソフトウェアを思いついたので、概要をまとめておく。他にもやりたいことが溜まってるので後回しになりそうだけど、いつか手を付けたい。


■目標
全米が泣くようなブログを自動で書いてくれるソフトウェア。
メールを受信するといい感じに返信してくれるソフトウェア。

■名前
プロジェクト名を「Kotoko」と名づける。
女性のイラストと一緒に公開すれば人気が出るに違いない。

■やること1
言語の連想モデルを作る。
とりあえずニューラルなのとSVMを調べてみたけど、イマイチ。
手馴れたところでデータベース(SQLite)と、フルテキスト検索(Sennaとか?)を使うことになるだろうから、そこで実現できそうなモデルを作る。頭の中にあることを実現しようとすると、酷く冗長で、言葉だけで何ギガも使いそうな状態が想像される。「花」という1つの言葉をSELECTすると1MB分のデータが湧いて出てくるような。

■やること2
文章を蓄積する。
読み込ませる文章によって性格がズレそうなので、「Kotoko」という名前に合いそうな文章を読ませたい。確か青空文庫に斜陽がいたか。あとは上品な感じのブログ書いてる人を探して、全エントリー読ませたりする。
ということで、ブログのTOPから全エントリーを探査して本文のみをデータベース化する処理をさっさと作っておく。ついでに簡易な上品判定スクリプトも書いておく。

■やること3
日記を書いて、「Kotoko」に読み込ませて、それを言い換えるプログラムを作る。
「今日は二日酔いで会社に行った。昼過ぎまでけっこう辛かった」と書いたら、「今日、例のブログ書いてる人は二日酔いでふらふらしながら会社に行ったらしい。仕事に対して不誠実です。後で殴っておきます」と出力してくれる感じ。

■やること4
連想モデルと文章データベースを利用して、1つのテーマを広げて文章を書かせてみる。ワードサラダにならないように注意。