2012年09月13日

CSSBoxでHTMLのwidthとheightを取ってみる

HTMLの本文抽出をするライブラリを探していたら、ふとHTMLのwidthやheightを取りたい衝動に駆られたので、CSSBoxというJavaのレンダリングエンジンを使ってさらっと取得してみた。 続きを読む

2012年09月11日

boilerpipeを使ってみる

■概要

HTMLから本文を抽出してSolrに登録する用事があったので、Javaの本文抽出ライブラリを探してみたところ、boilerpipeという子を見つけた。

英語色が強そうだけど、そこそこに精度は出そうに見えたので使ってみた。 続きを読む

2012年09月08日

日記的なもの

ここ数日、定時が決まっている会社で働いている。

働ける時間は8時間。その中にやりたい仕事を詰め込めるだけ詰め込む。それを突き詰めるのは、割と楽しい。

作業内容的に、効率良くやろうとすると自分のタスクをマルチスレッド化する必要がある。アレをやり処理を実行し、処理が走っている間にコレをやり、処理が終わったら元のタスクに戻り……

仕事が終わるとグッタリする。それもまた、少し楽しい。



続きを読む