2014年04月24日

PDFからテキストを抽出する

PDFの情報をテキストファイルで落としたかったので、URLを指定してテキストに変換するような簡単なスクリプトを書く。

すっかりご無沙汰でどうやって書くか忘れてしまったPythonさんを利用。そうか、xrangeはもうなかったか。

テキストの抽出にはxpdfを利用。以下、Ubuntuの場合。続きを読む

2014年04月20日

青空文庫のデータでword2vecした出力結果のメモ

Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。

青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。

ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。

形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。 続きを読む

2014年04月18日

Wikipediaのデータでword2vecした出力結果のメモ

ここのところ遅ればせながらword2vecと戯れ中。学習にかかる時間も短いし、うまく使えばいろいろ役に立ちそう。

とりあえずWikipediaのデータを突っ込んだ結果などを。

形態素解析時に、姓と名を連結してみたり、接尾語と接頭語を連結してみたり、カタカナの連続を連結してみたりしている。

以下はdistanceした時の上位。上が入力ワード、下が出力されたワード。 続きを読む

2014年04月13日

日記的なもの

前の部屋には6年間住んでいたのだが、いざ引っ越しの荷物をまとめ始めると、いらないものが大量に溜まっていることに驚いた。

以前の部屋は押入れも台所の収納も無駄に広く、1人暮らしの身ではどれだけモノを詰め込んでいっぱいにはならなかった。そうした状況だと整理整頓をする必要があまり発生せず、ついついいらないものが増えてしまう。

ということで、今回の部屋では「収納スペースを減らす」ことをテーマにした。

収納スペースが限られていれば、そこに入りきらないものは捨てるしかなくなる。これは私の本に対する運用ルールでもある。本は油断するとどんどん増えていって、部屋中を侵食してしまう。侵食が目に余るようになったら「ここに入る分以外は捨てる」というルールのもと、あっちを捨てようか、いやこっちを捨てようかと悩みながら始末を断行する。

幸い、今回の部屋は余計な収納がない。台所の収納も狭く、押し入れもない。そこで可能な限り収納用品を削って、モノを減らすように努めてみた。



続きを読む

2014年04月05日

日記的なもの

ようやく引越しが終わって一息ついた。家具はまだ一部揃っていないが、こうしてパソコンの前に座って日記が書ける程度の環境は整った。

排水のトラブルとか保険のトラブルとかいろいろあって疲れたけど、落ち着いてみると、良い立地で、それなりに広く、それなりに安い、良い部屋だなと思った。

続きを読む

国民年金の2年前納について調べる

先日、国民年金の支払い用紙が送られてきた。普段は用紙を使って1年前納で支払っていたのだけど、今年から2年前納が出来たらしい。

条件は、銀行引き落とし限定で、当年の2月末までに申し込んでおくこと。って、もうダメじゃないか。

https://www.nenkin.go.jp/n/www/service/detail.jsp?id=22807

続きを読む

2014年04月03日

CSSBoxでCSSの情報を含めたHTMLを落とす

WebからHTMLを取得して保存しておく際に、スタイルの情報も含めて記録しておきたい時がある。CSSBoxを使ってstylesToDomとかすればうまく記録できそうだったのでやってみた。

具体的には下記のようなコードで、org.fit.cssbox.css.DOMAnalyzerのstylesToDom()、stylesToDomInherited()なんかを設定することでうまくいった。 続きを読む

2014年04月01日

K2pdfoptでPaperWhite向きのPDFを作る

PDFをKindle PaperWhiteで読む時はK2pdfoptを利用することにした。下記の記事を見て導入した。

http://netbuffalo.doorblog.jp/archives/4332005.html

各種プラットフォームに対応していてLinuxでも動作する。 続きを読む