取得した中から、「っ」や「ー」で始まるものを消したり、nを1増やすと「てにをは」などの助詞っぽいものがくっつくヤツを取り除いて、集まっている文字列の精度を上げてみる。
その程度の猿知恵(猿に謝れ)では1000あるゴミを500に出来る程度。特徴的な言葉を抜きたいなら、やはり形態素解析で連結率見た方が賢明だよなと悟る。Perlのなら何かあるらしいし。
方向性を見失った感があるが、中途半端に終わらせるのもいまいちなので、「お」か「ご」か「漢字」で始まる文字だけ取り出して、それっぽい結果だけ導いてみる。
相変わらずの斜陽からの抽出文字列。ゴミの中に混じって固有の言葉っぽいのが残っている。
shayo_ngram.txt
同様のロジックを当ブログの記事にかけた場合、アルファベットやら記号やらがうまく扱えずだいぶ困る。クローラーで収集した適当なファイルにかけたらもっと酷いことになった。ExtractContentで本文抽出はしたのだけど、どうやら広告が混ざってしまっているらしく、それっぽい文字列が上位を占有してしまった。
形態素解析をした場合でも、除き損ねた広告文字列は邪魔をしそう。本文と同じブロックに広告がいると弾き辛い。とりあえずAタグの中は全部カットするとして、リンクの下に説明文とか入れられたら厳しい。広告判定プログラム作らないと。
とかなんとかやっていたら、もう2時過ぎ。最近、こういった微妙なプログラムにハマっているので睡眠不足。睡眠を削ってでもやりたいと思えることがあるのは、精神的には健康なことだとは思うけど。