2009年05月27日

2550億単語に後ろ髪引かれてみる

最近、私もようやく言葉に興味を持つ年頃(おそらく3歳ぐらい)になったので、文字に対する良いデータがないかと思って探していた。

すると、Googleが膨大な量のn-gramのデータを公開していることが分かった。公開したのはもう2年も前の話らしい。こういう系統のニュースはけっこう見ていたつもりだったのだけど覚えていない。見逃したか、それとも当時は興味が薄かったから記憶からデリートされたか。


大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html

>このたび、Web から抽出した約200億文(約2550億単語)の
>日本語データから作成したn-gramデータ(1〜7 gram)を
>公開致しました。

だそうです。2550億単語。未知の世界です。ひょっとしたら人の頭の中にはそれに近い単語数が埋まっているのかもしれないけど。


モノ自体は言語資源協会にて有料で配布しているそうです。商用利用不可、学術目的限定で、お値段たったの42,000円

http://www.gsk.or.jp/catalog.html

大学とかで使うなら予算も気軽に申請できるような値段だけど、個人で買うにはちと高い。でも、払えなくもない。

ついでに気になる容量の方は、DVD6枚で、gzip圧縮済みで、たったの26GB

なんとも萌え系の容量です。圧縮して26Gの文字データとか言われると、少し興奮しますよね。