2014年12月27日

青空文庫のテキストファイルをまとめてダウンロードする

自然言語処理の業界ではそこそこ使われている青空文庫。

青空文庫の内容はgithubから落とせる。

https://github.com/aozorabunko/aozorabunko

こんなものまで落とせるとはgithubも便利になったものだ。

下記URLの「Q:青空文庫の収録作品を、一括してダウンロードすることはできないのですか?」に毎日更新と書いてある。

http://www.aozora.gr.jp/guide/aozora_bunko_faq.html

1度落としておけば、その後はpullすれば差分を補える。ただ、なにぶん数が多いので、cloneするのもpullするのもかなり時間がかかる。

せめてもの抵抗として、sparse-checkoutでcardsの下だけpullしてみる。多分、あまり意味はない。

$ git init aozorabunko
$ cd aozorabunko
$ git config core.sparsecheckout true
$ echo cards >> .git/info/sparse-checkout
$ git remote add -f origin https://github.com/aozorabunko/aozorabunko.git
$ git pull origin master

一度きり使いたいだけの場合は、右側のDownload Zipから落とす方が良さそう。それでもけっこう時間かかるけど。