Wikipediaのカテゴリと、そこに含まれる単語の関係を体感してみたくなったので、さらっとこんなものを作る。
Wikipediaカテゴリ一覧
http://www.mwsoft.jp/programming/munou/data/wikipedia_category/
存命人物というカテゴリが最も巨大。含まれる記事数は実に82583。大量の人物名が登録されている。
続いて東京都出身の人物が、13225。
日本の俳優が、9310。
日本国有鉄道の鉄道駅が、5080。
日本の野球選手が、4595。
って、野球選手多いっ。
とりあえず、人物関連のカテゴリはとても充実していた。
かなり詳細に網羅されているものもあれば、中途半端なタグ付け程度に使われているものもあって、精度はまちまち。
例えば「日本の特急列車」というカテゴリには214件の特急列車が登録されている。これはけっこう網羅されているんじゃないかと思う。(マニアじゃないから分からないけど)
例えば「日本のカトリックの人物」というカテゴリには、21件しか登録がない。もちろん、この件数でカトリックな人が網羅できているとは思えない。
見ていて面白かったカテゴリは、この辺。
Apacheソフトウェア財団
http://ja.wikipedia.org/wiki/Category:Apache%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E8%B2%A1%E5%9B%A3
Apacheのプロジェクトなどが48個ほど載ってます。なぜか.htaccessが混じっている。
携帯可能なコンピュータ
http://ja.wikipedia.org/wiki/Category:%E6%90%BA%E5%B8%AF%E5%8F%AF%E8%83%BD%E3%81%AA%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF
とても微妙な取り揃えが逆にツボでした。
サーバ (ハードウェア)
http://ja.wikipedia.org/wiki/Category:%E3%82%B5%E3%83%BC%E3%83%90_(%E3%83%8F%E3%83%BC%E3%83%89%E3%82%A6%E3%82%A7%E3%82%A2)
いろんなサーバに混じって玄箱がいたり。
ソフトウェア会社
http://ja.wikipedia.org/wiki/Category:%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E4%BC%9A%E7%A4%BE
ここの灰化にある「北アメリカのソフトウェア会社」とかがもっと充実するといいなぁ(他力本願)。
毒
http://ja.wikipedia.org/wiki/Category:%E6%AF%92
毒に詳しくなれます。なってどうするという感じですが。