HTMLの本文抽出をするライブラリを探していたら、ふとHTMLのwidthやheightを取りたい衝動に駆られたので、CSSBoxというJavaのレンダリングエンジンを使ってさらっと取得してみた。 続きを読む
2012年09月13日
2012年09月11日
boilerpipeを使ってみる
■概要
HTMLから本文を抽出してSolrに登録する用事があったので、Javaの本文抽出ライブラリを探してみたところ、boilerpipeという子を見つけた。
英語色が強そうだけど、そこそこに精度は出そうに見えたので使ってみた。 続きを読む