HDDの情報を全部消去する時のコマンド

HDDを処分する時によく使うのでメモしておく。

間違えると被害甚大なので寝不足の時に使ってはいけない。先日、間違えてsdaと打ちそうになった。
$ sudo dd if=/dev/zero of=/dev/hdx

2014年05月03日

日記的なもの

新しいPCを買う。旧PCのHDDが異音を発していたのと、CPUがAthronUなので買い換えればそれなりの性能向上が望めると考えて。

256GBのSSDと16GBのメモリを載せたので少し高くついて、送料込みで8万。秋葉原行って安いパーツを漁ればマイナス1万くらいでできたと思う。でも選び始めるといくら時間があっても足りなくなるのでBTOで済ませる。

最近の大手のBTOはOSなしモデルを減らしているらしい。Windowsとかいうよくわからないソフトを付けて割高な値段にしたモデルばかり販売していた。フルカスタムのとこや小口のとこはOSなしをけっこう扱っているようだ。

続きを読む

2014年04月24日

PDFからテキストを抽出する

PDFの情報をテキストファイルで落としたかったので、URLを指定してテキストに変換するような簡単なスクリプトを書く。

すっかりご無沙汰でどうやって書くか忘れてしまったPythonさんを利用。そうか、xrangeはもうなかったか。

テキストの抽出にはxpdfを利用。以下、Ubuntuの場合。続きを読む

2014年04月20日

青空文庫のデータでword2vecした出力結果のメモ

Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。

青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。

ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。

形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。 続きを読む

2014年04月18日

Wikipediaのデータでword2vecした出力結果のメモ

ここのところ遅ればせながらword2vecと戯れ中。学習にかかる時間も短いし、うまく使えばいろいろ役に立ちそう。

とりあえずWikipediaのデータを突っ込んだ結果などを。

形態素解析時に、姓と名を連結してみたり、接尾語と接頭語を連結してみたり、カタカナの連続を連結してみたりしている。

以下はdistanceした時の上位。上が入力ワード、下が出力されたワード。 続きを読む

2014年04月13日

日記的なもの

前の部屋には6年間住んでいたのだが、いざ引っ越しの荷物をまとめ始めると、いらないものが大量に溜まっていることに驚いた。

以前の部屋は押入れも台所の収納も無駄に広く、1人暮らしの身ではどれだけモノを詰め込んでいっぱいにはならなかった。そうした状況だと整理整頓をする必要があまり発生せず、ついついいらないものが増えてしまう。

ということで、今回の部屋では「収納スペースを減らす」ことをテーマにした。

収納スペースが限られていれば、そこに入りきらないものは捨てるしかなくなる。これは私の本に対する運用ルールでもある。本は油断するとどんどん増えていって、部屋中を侵食してしまう。侵食が目に余るようになったら「ここに入る分以外は捨てる」というルールのもと、あっちを捨てようか、いやこっちを捨てようかと悩みながら始末を断行する。

幸い、今回の部屋は余計な収納がない。台所の収納も狭く、押し入れもない。そこで可能な限り収納用品を削って、モノを減らすように努めてみた。



続きを読む

2014年04月05日

日記的なもの

ようやく引越しが終わって一息ついた。家具はまだ一部揃っていないが、こうしてパソコンの前に座って日記が書ける程度の環境は整った。

排水のトラブルとか保険のトラブルとかいろいろあって疲れたけど、落ち着いてみると、良い立地で、それなりに広く、それなりに安い、良い部屋だなと思った。

続きを読む

国民年金の2年前納について調べる

先日、国民年金の支払い用紙が送られてきた。普段は用紙を使って1年前納で支払っていたのだけど、今年から2年前納が出来たらしい。

条件は、銀行引き落とし限定で、当年の2月末までに申し込んでおくこと。って、もうダメじゃないか。

https://www.nenkin.go.jp/n/www/service/detail.jsp?id=22807

続きを読む

2014年04月03日

CSSBoxでCSSの情報を含めたHTMLを落とす

WebからHTMLを取得して保存しておく際に、スタイルの情報も含めて記録しておきたい時がある。CSSBoxを使ってstylesToDomとかすればうまく記録できそうだったのでやってみた。

具体的には下記のようなコードで、org.fit.cssbox.css.DOMAnalyzerのstylesToDom()、stylesToDomInherited()なんかを設定することでうまくいった。 続きを読む

2014年04月01日

K2pdfoptでPaperWhite向きのPDFを作る

PDFをKindle PaperWhiteで読む時はK2pdfoptを利用することにした。下記の記事を見て導入した。

http://netbuffalo.doorblog.jp/archives/4332005.html

各種プラットフォームに対応していてLinuxでも動作する。 続きを読む

2014年03月18日

プログラミング言語の擬人化記事(その2)の元ネタ

Teck総研さんでまたなんかアレなものを書いた。

プログラミング言語擬人化計画2
http://next.rikunabi.com/tech/docs/ct_s03600.jsp?p=002477&vos=dyterssc000000000000

ので、前回と同じく元ネタを貼っておく。

その1はこちら
http://blog.mwsoft.jp/article/82065726.html



続きを読む

2014年03月04日

ITエンジニア向けの女子ファッション用語解説を書く

何を言っているのかわからないと思うかもしれないが、書いている本人もわかっていない。とりあえずこういう企画があるよという話を聞いたので挑戦してみた。人生は挑戦である。

ITエンジニアのためのファッション用語解説
http://next.rikunabi.com/tech/docs/ct_s03600.jsp?p=002469

ファッション雑誌5冊を1文字も余さず読み込んだり、Web上の用語集や画像を見て勉強したり、知り合いの女性を捕まえてアンケート取ったりと頑張ったんだけど、非プログラマがプログラムの話を書くと少し違和感が出てしまうのと似た類の無理さはあったと思う。

とりあえず今回の企画で良かったことは、下記の商品を見つけられたことだろう。

https://www.google.co.jp/search?site=imghp&tbm=isch&q=Geek+%E3%83%AF%E3%83%83%E3%83%9A%E3%83%B3%E3%82%B9%E3%82%A6%E3%82%A7%E3%83%83%E3%83%88

これは流行る(*´ω`*)


続きを読む

2014年02月27日

libnotifyを使って指定時間にnotifyを表示してみる

データ処理の仕事をしていると「30分後くらいに今やってる処理が終わるから、そしたら出力結果を確認して次の処理を流す」とか「今投げてるクエリが終わるのを待ちつつ次のクエリを書く」といった時間差タスクがけっこう発生する。

別のタスクに手を出してしまうと、ついついそちらに熱中して、前に実行していたタスクのことを忘れてしまうことも多い。

そんな時は、libnotifyを使って指定時間に「そろそろ○○の作業終わったんじゃね?」といったnotifyを表示すれば、前のタスクを忘れずに済む。


続きを読む

2014年02月17日

日記的なもの

去年の売上が出た。1ヶ月ちょっと仕事を休んだ割に、そこそこの金額稼げていた。後の公的な支払いが少し怖い。所得税はたいした金額じゃないから良いけど、住民税と健康保険はけっこうな額になる。ろくに病院も行かないのに、健康保険で50万とか辛い。

これだけ稼げるならそろそろ起業してしまっても良いのだけど、やる気が起きない。最近は景気も良くなってるし消費税率も上がるし、良いタイミングではあるのだけど。

会社経営をお願いできるような人と結婚でもしたら、そうした方向に歩けるかもしれない。前にブログで仕事探ししたら意外とうまくいったので、ブログで婚活でもしてみようか。求めるスキルを書いて、こちらのセールスポイントを書いて、細かい条件や要相談事項などを並べて書いてくような感じの。

よし、あとで書こう。

続きを読む

2014年02月03日

日記的なもの

忙しくて王将戦も見れない。そんな人生で良いのかと自問自答する日々。棋譜をさらっと眺めて罰ゲーム写真を見るくらいしかできていない。棋王戦は今日は見れたけど。

秋から春にかけての豪華2日制3強3本立てにが行われるこの期間に仕事漬けで生きていて良いのか。オライリーの本よりも将棋世界を読んで備えるべきなんじゃないのか。そんな頭の中の言葉を聞き流す日々。

人生というのは取捨選択である。何十個も宝箱があって、たくさんの欲しい物が入ってる。でも、道具欄は8つしかない。サンドラットはどこに売っているのだろう。



続きを読む

2014年01月13日

Slickをちょこちょこ使う

最近、Slickをちょこちょこ使っている。Typesafeのお墨付きもあるし、ScalaからDBを使おうと考えると、これを選択するのが一般的になるのだろう。

今週末はどの記述がどういうクエリを投げているのか確かめたりしてみた。

ScalaのORM「Slick」でいろんなSQLを投げてみる
http://www.mwsoft.jp/programming/scala/slick_query.html

続きを読む

2014年01月12日

日記的なもの

そこそこに使い道がありそうなコードをいくつか書きつつ、原稿の為の調査もちょこちょこしつつ。Slickの使い方を覚えつつ。

年末年始から、休まず勉強している。

うまくいっているのは、仕事を変えたお陰だと思う。自分が底辺にいることを実感できる良い職場にいるので。

多少まともに使えるエンジニアというのは、どこへ行っても下にも置かない扱いをされるもので、私の場合、そうした場所にいるとプログラマとしての目標を高く維持することが難しくなる。そうならないでいられるというのは、とてもありがたいことだと思う。

「好きな職場」は他にもたくさんあったけど、「良い職場」という点では、これまでに行った中でも1番かもしれない。

続きを読む

2014年01月11日

Slickのelementsメソッドがfetchすることを確認する

Slickで取ったSQLの結果はたいていlistかfirstOptionで取っていたのだけど、大きめの結果を取る場合はfetchした方が良いよなという事で、elementsを使ってみる。

確認のため、1000万件の結果を取得させてみて、listと比べてメモリ消費量が少ないことを確認する。 続きを読む

2014年01月02日

LuceneとWikipediaのデータを使ったクラスタリング

年末にこんなのを書く。

1日で作れるWikipediaとLuceneを使った簡易な文書カテゴリ判定機能
http://www.mwsoft.jp/programming/nlp/wikipedia_categorizer.html

Wikipediaのカテゴリと類似文書検索を使った簡単なものだけど、下手なクラスタリングよりは精度が出る。

Luceneを使ったカテゴリ分類というのはけっこうあって、たとえばCarrot2のようなLuceneのインデックスからクラスタリングを実行するソフトがあったり、Mahoutのクラスタリングの素材として利用している例もけっこう見られる。

TF/IDFで単語ごとの重みを出せるとか、出現頻度の低いTermを削れるとか、英単語の活用が揃えられるとか、動詞の基本形を揃えられるとか(あ、今回のコードではやってないや。後でやろう)、カタカナの長音の有無を揃えられるとか(これもやってないな)、Luceneは日本語のNLPツールとして非常に優秀だと思う。