2012年05月18日
日記的なもの
巻頭に「-san」「-sama」「-dono」などの敬称に関する説明が付いている。
例えば「-san」は「This is the most common honorific and is equivalent to Mr., Miss, Ms., or Mrs. It is the all-purpose honorific and can be used in any situation where politeness is required.」
こう書かれると「さん」って便利な敬称だよね。
巻末には翻訳に関する注釈が載っている。例えば「Aya and Ito」(Picking the Empty Cocoonに出てくる双子の姉妹)については、「The kanji for Aya's name means cloth, and the kanji for Ito's name refers to thread. These are perfect names for the daughters of silkworm formers.」と書かれている。
こうして日本固有の話を説明を英語で書かれると、なんとなく趣深く感じる。
続きを読む
2012年05月13日
先週の更新履歴
http://www.mwsoft.jp/programming/r/
Rの勉強をしながら残したメモ。今はまったく理解できていないが、いずれ理解できそうな気がする。
Webページの動く要素を止めるアドオンを探す
http://www.mwsoft.jp/column/animation_stop.html
海外のフォーラムとか見てたら、広告やらアイコンやらがやたら動いて気持ち悪かったので止めた。
2012年04月30日
貧乏性とElastic MapReduce
実行命令を出すと指定した数のインスタンスが自動で立ち上がり、S3に置いてあるデータに対して処理が行われる。
続きを読む
2012年04月29日
2012年04月28日
今週の更新記事
http://www.mwsoft.jp/programming/hadoop/mapreduce_with_lucene_filter.html
単語抽出の時とか普通に使えそうだった。
Luceneのフィルタ一覧
http://www.mwsoft.jp/programming/lucene/lucene_filter.html
上のHadoopの記事を書くにあたって下準備として調べたもの。
MapReduceでの平均値の算出
http://www.mwsoft.jp/programming/hadoop/average_mapreduce.html
子象本は読みましたアピールその2。でもアレとアレとアレとアレも書いとかないとアピール度的に低いな。
LuceneのIndexファイルに関するメモ書き
http://www.mwsoft.jp/programming/lucene/lucene_index_memo.html
インデックスディレクトリに作成されるいくつかのファイルについて中身を見てみた。
2012年04月22日
先週の更新記事
Luceneのフィルタ一覧
http://www.mwsoft.jp/programming/lucene/lucene_filter.html
Hadoopで文字列処理する時に使えるものないかなぁと思って、アレやコレやと試してみた記録をまとめた感じのもの。英語のStemmerについてはもう少し調べないといけない。
このフィルタも入れとこうよとかあったら言ってもらえれば対応するかもしれません。
HadoopでSnappyを使ってみたメモ
http://www.mwsoft.jp/programming/hadoop/snappy_memo.html
Mapperの中間ファイルとして使ったり、多段で動かす際の中間ファイルとして使ったり。手軽に使えるのは良いことだ。
2012年04月18日
2012年04月15日
2012年04月14日
Lucene/Solr3.6リリース - 形態素解析が使えるようになった
今週はAmazonのCloudSearchが発表されたり、Lucene/Solrの3.6がリリースされたりと、全文検索さんとお付き合いしている人たちにはアドレナリンが出やすい1週間でした。
3.6には形態素解析を使ったAnalyzer(Kuromoji)が入るなど、日本人にとっては脳内物質が駆けめぐりやすいリリースになっているようです。β‐エンドルフィン。チロシン。エンケファリン。
とりあえず触ってみたところとかをメモ。 続きを読む
2012年04月04日
in-mapper combiningメモ
子象本くらいは読んでますよ、みたいなところをアピールするためにこんなのを書いてみる。
in-mapper combining(MapReduceデザインパターン)
http://www.mwsoft.jp/programming/hadoop/in_mapper_combining.html
0.23系が触りたい気持ちもありつつ、今仕事で使うとしたら0.20だろうということで地固めに励む。
2012年04月02日
HadoopのWritableに関するメモ
とりあえずHadoopに関するそれっぽい記事をたくさん書くのだ。書くのだ。
HadoopのWritableに関するメモ
http://www.mwsoft.jp/programming/hadoop/writable_memo.html
書くのだ。
2012年04月01日
日記的なもの
三層分離モデルによるOpen政治について
http://www.mwsoft.jp/column/open_governments.html
SFのプロットを作る時に設定に凝り過ぎてはいけない、みたいな格言を思い出した。しかし凝らな過ぎてもいけない。難しい。
続きを読む
2012年03月14日
HadoopのContextをScalaのforで回してみたメモ
この子をScalaのforでこんな風に回してみたかった。
for ((key, value) <- context) {
// ここで処理
}続きを読む
2012年03月13日
Kuromojiで日本語WordCount
とりあえずこの辺から。
Hadoop、Scala、Kuromojiで日本語WordCount
http://www.mwsoft.jp/programming/hadoop/scala_ja_word_count.html
今もHadoopは仕事で使ってるけど、それメインというわけではないのでちょっと物足りない。
夏頃までは仕事が埋まってるので、8月か9月にそういう仕事が取れることを目指して、ボチボチやってみよう。
2012年03月11日
2012年02月26日
日記的なもの
http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html
これは自サイトの全文書をSolrに放り込んで、上記URL内でも使っているMoreLikeThisでスコアが高いもの上位5件抽出したもの。
VPSにSolrのサーバ立てても良かったんだけど、ページを呼ばれるたびに毎回MoreLikeThisリクエストが来てもらっても困るので、全ページの結果をJSON形式で保存して読み込むようにした。
新しい記事を書くたびに再生成しないといけないのが面倒だけど、自動化して流せるようにしておけばそれほど手間でもない。実行時間も今のところ30秒くらい。
続きを読む
2012年02月21日
MoreLikeThisで遊んでみた
http://www.mwsoft.jp/programming/lucene/more_like_this_wikipedia.html
今週は確定申告の準備をすると言ったな。あれは嘘だ。
いや、ちゃんとやるつもりでCalc開いて入力とかも始めたんですけどね。
気がついたら上のようなものを書いてました。
おかしいなぁ。
2012年02月19日
日記的なもの
H2+Lucene+形態素解析で全文検索しようとしたメモ
http://www.mwsoft.jp/programming/lucene/lucene_h2.html
結論としてうまくいかなかったけど、この手の情報を必要としている人もいるのではないかと思ったので、とりあえず貼っておく。
先週は上記のこと戯れているうちに過ぎてしまい、ノルマを果たせず。まぁ、勉強にはなったからいいや。
今週からは確定申告の準備を始めるので休業予定。作業の8割くらいは知り合いにお願いして済ませてあるので、今週中にはなんとか終わるといいなぁといった感じ。
さっさと終わらせてプログラミングに戻ろう。
続きを読む
2012年02月15日
メモ書き(CDH4 b1とか)
HadoopとLuceneとNutchの名前の由来
http://www.mwsoft.jp/programming/hadoop/where_come_from.html
で、本題。CDH4のベータ版が出たらしいので適当にメモ書き。
続きを読む