2012年05月18日

日記的なもの

英語版のコミック(Mushishi)を購入。面白い。

巻頭に「-san」「-sama」「-dono」などの敬称に関する説明が付いている。

例えば「-san」は「This is the most common honorific and is equivalent to Mr., Miss, Ms., or Mrs. It is the all-purpose honorific and can be used in any situation where politeness is required.」

こう書かれると「さん」って便利な敬称だよね。

巻末には翻訳に関する注釈が載っている。例えば「Aya and Ito」(Picking the Empty Cocoonに出てくる双子の姉妹)については、「The kanji for Aya's name means cloth, and the kanji for Ito's name refers to thread. These are perfect names for the daughters of silkworm formers.」と書かれている。

こうして日本固有の話を説明を英語で書かれると、なんとなく趣深く感じる。


続きを読む

2012年05月13日

先週の更新履歴

Rメモ
http://www.mwsoft.jp/programming/r/

Rの勉強をしながら残したメモ。今はまったく理解できていないが、いずれ理解できそうな気がする。



Webページの動く要素を止めるアドオンを探す
http://www.mwsoft.jp/column/animation_stop.html

海外のフォーラムとか見てたら、広告やらアイコンやらがやたら動いて気持ち悪かったので止めた。

2012年05月06日

日記的なもの

普通の日記でも付けてみよう。

続きを読む

2012年04月30日

貧乏性とElastic MapReduce

AmazonのElastic MapReduceは時間単位でサーバを借りてMapReduce処理を実行することができる。

実行命令を出すと指定した数のインスタンスが自動で立ち上がり、S3に置いてあるデータに対して処理が行われる。

続きを読む

2012年04月29日

日記的な夢十夜

最近、よく夢を見る。おそらく睡眠時間を増やした影響だと思われる。具体的には6時間だったのを7時間にした。

今までは泥のように眠って泥の中から起きている感じだったけど、7時間眠ると起きる30分くらい前からなんとなく覚醒しかけているような感じがする。

で、その覚醒しかけている時に夢を見る。

たいていは目が覚めた時に「あー、夢で良かった」と思うような内容。寝起きのボケた頭だと、夢だったと認識しつつもまだ心のどこかで「ヤバい」という警笛が鳴り続けたりする。そんな感覚に陥るような夢。

続きを読む

2012年04月28日

今週の更新記事

Hadoopでテキストを扱う際にLuceneのTokenizerで単語分割してみる
http://www.mwsoft.jp/programming/hadoop/mapreduce_with_lucene_filter.html
単語抽出の時とか普通に使えそうだった。

Luceneのフィルタ一覧
http://www.mwsoft.jp/programming/lucene/lucene_filter.html
上のHadoopの記事を書くにあたって下準備として調べたもの。

MapReduceでの平均値の算出
http://www.mwsoft.jp/programming/hadoop/average_mapreduce.html
子象本は読みましたアピールその2。でもアレとアレとアレとアレも書いとかないとアピール度的に低いな。

LuceneのIndexファイルに関するメモ書き
http://www.mwsoft.jp/programming/lucene/lucene_index_memo.html
インデックスディレクトリに作成されるいくつかのファイルについて中身を見てみた。

2012年04月22日

先週の更新記事

毎回ブログで「更新したよ」的なことを書くと検索の引っかかり方的にアレなのが気になってたので、1週間分まとめて書くことにしてみる。



Luceneのフィルタ一覧
http://www.mwsoft.jp/programming/lucene/lucene_filter.html

Hadoopで文字列処理する時に使えるものないかなぁと思って、アレやコレやと試してみた記録をまとめた感じのもの。英語のStemmerについてはもう少し調べないといけない。

このフィルタも入れとこうよとかあったら言ってもらえれば対応するかもしれません。



HadoopでSnappyを使ってみたメモ
http://www.mwsoft.jp/programming/hadoop/snappy_memo.html

Mapperの中間ファイルとして使ったり、多段で動かす際の中間ファイルとして使ったり。手軽に使えるのは良いことだ。

2012年04月18日

メモ書き

さくらのVPSのプランに変更があった。これまで月額980円の最安プランはメモリ512MB、HDD20GBだったのが、同額でメモリ1GB、HDD100GBになった。

メモリはどうでもいいけどHDDの容量は欲しいので、新規に1GBのプランを契約し、旧契約を破棄する形で乗り換えてみる。 続きを読む

2012年04月15日

日記的なもの

フリーの英語のサウンドノベルに手を出してみたところ、思ったより面白くてうっかり延々プレイし続けてしまった。こうした行為は英語を読む速度の向上に繋がるので、没頭し過ぎても自制はしないことにしている。

フリーのノベルを面白いと感じられたのは、おそらく日本語で見たら微妙だと感じる表現でも、英語だとしっかり理解できない分、素直に受け止められてしまうことがあるのではないかと思う。

それは多分、今まで延々と触れ続けてきた日本語では感じられない良さ。子供の頃に本を読んだ時の高揚感に似ているところがあって悪くない気分がした。

こういう感覚はちょっと幸せだ。

続きを読む

2012年04月14日

Lucene/Solr3.6リリース - 形態素解析が使えるようになった

今週はAmazonのCloudSearchが発表されたり、Lucene/Solrの3.6がリリースされたりと、全文検索さんとお付き合いしている人たちにはアドレナリンが出やすい1週間でした。

3.6には形態素解析を使ったAnalyzer(Kuromoji)が入るなど、日本人にとっては脳内物質が駆けめぐりやすいリリースになっているようです。β‐エンドルフィン。チロシン。エンケファリン。

とりあえず触ってみたところとかをメモ。 続きを読む

2012年04月04日

in-mapper combiningメモ

就職活動月間その2。

子象本くらいは読んでますよ、みたいなところをアピールするためにこんなのを書いてみる。

in-mapper combining(MapReduceデザインパターン)
http://www.mwsoft.jp/programming/hadoop/in_mapper_combining.html

0.23系が触りたい気持ちもありつつ、今仕事で使うとしたら0.20だろうということで地固めに励む。

2012年04月02日

HadoopのWritableに関するメモ

今月は就職活動準備月間。

とりあえずHadoopに関するそれっぽい記事をたくさん書くのだ。書くのだ。

HadoopのWritableに関するメモ
http://www.mwsoft.jp/programming/hadoop/writable_memo.html

書くのだ。

2012年04月01日

日記的なもの

せっかく4月1日なんで変な文章でも書いてみようと思って、オープンソースの体系をそのまま政治体系に置き換えた捏造資料を作ってみたのだけど、今ひとつ面白くならなかった。

三層分離モデルによるOpen政治について
http://www.mwsoft.jp/column/open_governments.html

SFのプロットを作る時に設定に凝り過ぎてはいけない、みたいな格言を思い出した。しかし凝らな過ぎてもいけない。難しい。

続きを読む

2012年03月14日

HadoopのContextをScalaのforで回してみたメモ

HadoopのContextは、「nextKeyValue」「getCurrentKey」「getCurrentValue」の3つを持っていてループで回して使ったりする。

この子をScalaのforでこんな風に回してみたかった。
for ((key, value) <- context) {
// ここで処理
}

続きを読む

2012年03月13日

Kuromojiで日本語WordCount

Hadoop関連の仕事に就きたい気持ちがフツフツと湧いてきたので、しばらくそれっぽいことを書いて過ごしてみようと思う。

とりあえずこの辺から。

Hadoop、Scala、Kuromojiで日本語WordCount
http://www.mwsoft.jp/programming/hadoop/scala_ja_word_count.html

今もHadoopは仕事で使ってるけど、それメインというわけではないのでちょっと物足りない。

夏頃までは仕事が埋まってるので、8月か9月にそういう仕事が取れることを目指して、ボチボチやってみよう。

2012年03月11日

日記的なもの

こんにちは。Wさんです。

確定申告の準備が終わって軽く休暇も取って、少しだけやわらかくなりました。

飴色になるまで炒めた玉ねぎくらいのやわらかさです。

私はやわらかい気持ちになると、枕草子を思い出します。

所得税を払うもおかし。預金残高の急に目減りしたるもいとつきづきし。

軟弱になったものです。

続きを読む

2012年02月26日

日記的なもの

サイトに関連エントリー機能を付けてみた。下記のページのようにレフトナビに入れてある。

http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html

これは自サイトの全文書をSolrに放り込んで、上記URL内でも使っているMoreLikeThisでスコアが高いもの上位5件抽出したもの。

VPSにSolrのサーバ立てても良かったんだけど、ページを呼ばれるたびに毎回MoreLikeThisリクエストが来てもらっても困るので、全ページの結果をJSON形式で保存して読み込むようにした。

新しい記事を書くたびに再生成しないといけないのが面倒だけど、自動化して流せるようにしておけばそれほど手間でもない。実行時間も今のところ30秒くらい。

続きを読む

2012年02月21日

MoreLikeThisで遊んでみた

SolrのMoreLikeThisでWikipediaの類似記事を取得してみた
http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html

今週は確定申告の準備をすると言ったな。あれは嘘だ。

いや、ちゃんとやるつもりでCalc開いて入力とかも始めたんですけどね。

気がついたら上のようなものを書いてました。

おかしいなぁ。

2012年02月19日

日記的なもの

こんなの書いた。

H2+Lucene+形態素解析で全文検索しようとしたメモ
http://www.mwsoft.jp/programming/lucene/lucene_h2.html

結論としてうまくいかなかったけど、この手の情報を必要としている人もいるのではないかと思ったので、とりあえず貼っておく。

先週は上記のこと戯れているうちに過ぎてしまい、ノルマを果たせず。まぁ、勉強にはなったからいいや。

今週からは確定申告の準備を始めるので休業予定。作業の8割くらいは知り合いにお願いして済ませてあるので、今週中にはなんとか終わるといいなぁといった感じ。

さっさと終わらせてプログラミングに戻ろう。

続きを読む

2012年02月15日

メモ書き(CDH4 b1とか)

まずはさっき書いた記事をブログに貼り忘れてたので気持ち的に貼っておく。

HadoopとLuceneとNutchの名前の由来
http://www.mwsoft.jp/programming/hadoop/where_come_from.html


で、本題。CDH4のベータ版が出たらしいので適当にメモ書き。

続きを読む