PDFの情報をテキストファイルで落としたかったので、URLを指定してテキストに変換するような簡単なスクリプトを書く。
すっかりご無沙汰でどうやって書くか忘れてしまったPythonさんを利用。そうか、xrangeはもうなかったか。
テキストの抽出にはxpdfを利用。以下、Ubuntuの場合。続きを読む
PDFの情報をテキストファイルで落としたかったので、URLを指定してテキストに変換するような簡単なスクリプトを書く。
すっかりご無沙汰でどうやって書くか忘れてしまったPythonさんを利用。そうか、xrangeはもうなかったか。
テキストの抽出にはxpdfを利用。以下、Ubuntuの場合。続きを読む
Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。
青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。
ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。
形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。 続きを読む
ここのところ遅ればせながらword2vecと戯れ中。学習にかかる時間も短いし、うまく使えばいろいろ役に立ちそう。
とりあえずWikipediaのデータを突っ込んだ結果などを。
形態素解析時に、姓と名を連結してみたり、接尾語と接頭語を連結してみたり、カタカナの連続を連結してみたりしている。
以下はdistanceした時の上位。上が入力ワード、下が出力されたワード。 続きを読む
WebからHTMLを取得して保存しておく際に、スタイルの情報も含めて記録しておきたい時がある。CSSBoxを使ってstylesToDomとかすればうまく記録できそうだったのでやってみた。
具体的には下記のようなコードで、org.fit.cssbox.css.DOMAnalyzerのstylesToDom()、stylesToDomInherited()なんかを設定することでうまくいった。 続きを読む
PDFをKindle PaperWhiteで読む時はK2pdfoptを利用することにした。下記の記事を見て導入した。
http://netbuffalo.doorblog.jp/archives/4332005.html
各種プラットフォームに対応していてLinuxでも動作する。 続きを読む