そこそこに使い道がありそうなコードをいくつか書きつつ、原稿の為の調査もちょこちょこしつつ。Slickの使い方を覚えつつ。
年末年始から、休まず勉強している。
うまくいっているのは、仕事を変えたお陰だと思う。自分が底辺にいることを実感できる良い職場にいるので。
多少まともに使えるエンジニアというのは、どこへ行っても下にも置かない扱いをされるもので、私の場合、そうした場所にいるとプログラマとしての目標を高く維持することが難しくなる。そうならないでいられるというのは、とてもありがたいことだと思う。
「好きな職場」は他にもたくさんあったけど、「良い職場」という点では、これまでに行った中でも1番かもしれない。
部屋が寒い。最上階角部屋なので、壁からの冷え込みが大きい。
とりあえず寝袋を履いて座り、電気毛布にくるまってしのいでいる。あと、電子レンジで水を温めて、しょうが汁的な粉を入れて飲むのも効果的。
冬は嫌いではないけど、体温が落ちると病気になりやすくなるのでよろしくない。自営業者は身体が資本なので、体調を崩すのは困る。なので私はやれることは全部やって、風邪はひかないようにしている。
調査の為に、CanCam、Zipper、mini、GINGER、agehaを読む。自分が何やってるのか訳がわからなくなってくる。けど、新しい知識だし面白くはある。
去年はちょくちょくコミックを読んでいた。3月のライオンとか、銀の匙とか、高杉さんちのお弁当とか。
この年になると「ちゃんと調査しているか」「実体験をともなっているか」というところが気になってしまう部分があって、その辺がしっかりされている(もしくは例え失敗はあっても品質を高くしようとした跡がみられる)作品に対しては好感を覚えることが多い。
自分もたとえそれが雪かきであっても、きちんと調査できることはすべきだろうし、そうやって積み重ねたことが、いつか何かの役に立つこともあるだろう。今回読んだものなら、たとえば女性と買い物に行く時に少しは気の利いたアドバイスができるかもしれないとか。
12日時点の2014年1月の目標達成率
1. カテゴリ分類の簡易コードのライブラリ化 (100%)
とりあえずgithubにあげた分で目標達成とする。改善については別途チケットを立てて行う。
今後の目標はWebサービス化。Mahoutのなんらかの手法でモデルを生成し、URL指定でカテゴリ判定をするアプリを作成する。でもサーバどうするか。おそらく当面は動かない。あと、Carrot2の調査もする。今月はやることが埋まってるので、この辺は来月以降に持ち越し。
2. 原稿(40%)
依頼は2本。片方は概ね書き上がる。あとは校正を2回して提出。
もう片方は枠だけ作ったので、調査とネタ出し中。
どちらも今ひとつ面白味のない文章になってしまっている。もう少し味のある文章は書けないものだろうか。
3. 論文を読む(20%)
進まず。テキストファイルにしてKindleに入れて読む予定だけど、現在は原稿の調査資料を読む方を優先している。
そちらが片付き次第、手を出す。
4. 帳簿(0%)
未着手。26日にやる予定。
5. 本文抽出ライブラリの作成(30%)
要素の位置による本文抽出について。大枠はできた。後は精度がでるような手法の検討と教師データの作成。実は教師なしでもいけるんじゃないかとか考えつつ。
下記は現状での判定結果。教師データは作らず、簡単な計算式で出している。ヘッダ、フッタ、レフトナビ、ライトナビを判定させている。赤く塗られているところがヘッダ、オレンジがフッタ、青がレフトナビ、緑がライトナビ。
http://www.mwsoft.jp/img/blog/web_content_extract_20140112.html
親要素を塗って子要素は塗ってないので、子要素の色で親要素の判定が見えなくなっている箇所もある。最終的には親がヘッダなら子もヘッダとして判定させる。
見ての通り、位置のみを頼りに出しているので、誤ってコンテンツを非本文としてしまうことは少なく、代わりに中央にある要素は本文でなくても無条件で本文として判定している。個人的にはこのレベルの削りでも十分に精度向上に役立つと考えているのだけど、いざ使ってみたらどうなることか。
形は出来たとはいえここからが長い。とりあえず現状の課題として認識しているマージンやパディングの情報を判定に含めるのと、テストデータの調査については今月中に行う。