2010年02月17日

Wikipediaのカテゴリに触れてみる

Wikipediaのカテゴリと、そこに含まれる単語の関係を体感してみたくなったので、さらっとこんなものを作る。

Wikipediaカテゴリ一覧
http://www.mwsoft.jp/programming/munou/data/wikipedia_category/

存命人物というカテゴリが最も巨大。含まれる記事数は実に82583。大量の人物名が登録されている。

続いて東京都出身の人物が、13225。
日本の俳優が、9310。
日本国有鉄道の鉄道駅が、5080。
日本の野球選手が、4595。

って、野球選手多いっ。
とりあえず、人物関連のカテゴリはとても充実していた。


かなり詳細に網羅されているものもあれば、中途半端なタグ付け程度に使われているものもあって、精度はまちまち。

例えば「日本の特急列車」というカテゴリには214件の特急列車が登録されている。これはけっこう網羅されているんじゃないかと思う。(マニアじゃないから分からないけど)

例えば「日本のカトリックの人物」というカテゴリには、21件しか登録がない。もちろん、この件数でカトリックな人が網羅できているとは思えない。


見ていて面白かったカテゴリは、この辺。

Apacheソフトウェア財団
http://ja.wikipedia.org/wiki/Category:Apache%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E8%B2%A1%E5%9B%A3
Apacheのプロジェクトなどが48個ほど載ってます。なぜか.htaccessが混じっている。

携帯可能なコンピュータ
http://ja.wikipedia.org/wiki/Category:%E6%90%BA%E5%B8%AF%E5%8F%AF%E8%83%BD%E3%81%AA%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF
とても微妙な取り揃えが逆にツボでした。

サーバ (ハードウェア)
http://ja.wikipedia.org/wiki/Category:%E3%82%B5%E3%83%BC%E3%83%90_(%E3%83%8F%E3%83%BC%E3%83%89%E3%82%A6%E3%82%A7%E3%82%A2)
いろんなサーバに混じって玄箱がいたり。

ソフトウェア会社
http://ja.wikipedia.org/wiki/Category:%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E4%BC%9A%E7%A4%BE
ここの灰化にある「北アメリカのソフトウェア会社」とかがもっと充実するといいなぁ(他力本願)。


http://ja.wikipedia.org/wiki/Category:%E6%AF%92
毒に詳しくなれます。なってどうするという感じですが。