自然言語処理の業界ではそこそこ使われている青空文庫。
青空文庫の内容はgithubから落とせる。
https://github.com/aozorabunko/aozorabunko
こんなものまで落とせるとはgithubも便利になったものだ。
下記URLの「Q:青空文庫の収録作品を、一括してダウンロードすることはできないのですか?」に毎日更新と書いてある。
http://www.aozora.gr.jp/guide/aozora_bunko_faq.html
1度落としておけば、その後はpullすれば差分を補える。ただ、なにぶん数が多いので、cloneするのもpullするのもかなり時間がかかる。
せめてもの抵抗として、sparse-checkoutでcardsの下だけpullしてみる。多分、あまり意味はない。
$ git init aozorabunko $ cd aozorabunko $ git config core.sparsecheckout true $ echo cards >> .git/info/sparse-checkout $ git remote add -f origin https://github.com/aozorabunko/aozorabunko.git $ git pull origin master
一度きり使いたいだけの場合は、右側のDownload Zipから落とす方が良さそう。それでもけっこう時間かかるけど。