2014年12月27日

青空文庫のテキストファイルをまとめてダウンロードする

自然言語処理の業界ではそこそこ使われている青空文庫。

青空文庫の内容はgithubから落とせる。

https://github.com/aozorabunko/aozorabunko 続きを読む

2014年12月26日

今使ってるFirefoxアドオン

先日、他の会社から支給されたPCを自分用にセットアップしようとした時に「自宅で入れてるあのアドオンなんだっけ」的な状態になったので、一覧を更新しておく。 続きを読む

2014年12月21日

JuliaでREPLを使っている時に情報をクリアする方法を探す

IPythonのresetみたいなヤツが理想。

使用バージョンは0.3.3 続きを読む

2014年12月19日

apt-getで入れたpipがなんかエラー吐くようになった

pip installしようとすると、下記のようなエラーを吐くようになった。 続きを読む

2014年12月18日

julia-vimを入れる

vimでJuliaのシンタックスハイライトをしたかったので、julia-vimを入れる。

以下、手順ログ。続きを読む

2014年12月15日

数式をWebで表示する方法を調べかけて途中でやめた

とりあえずMathJax読み込んでMathMLを使えばいいか的な気持ちになったけど、今後もそれでいいかよくわからなかったので調査中断。

もう少し状況が固まってからちゃんと調べよう。多分、3年後くらいに。

今回調べた内容の途中経過はとりあえず下記にまとめた。

数式をWebで表示する方法を調べる
http://www.mwsoft.jp/programming/nlp/web_math_eq.html

2014年12月14日

pandas14とgoogle-api-python-clientを同時に入れたらpandasがimportできなくなった

google-api-python-clientとpandasを一緒に入れると、バージョンによってはpandasがimportできなくなるらしい。続きを読む

2014年12月13日

PythonでGoogle Calendar APIから日本の祝祭日を取得する

日本の祝祭日の情報が欲しかったんだけど、あまり良いAPIが見当たらなかったので、Google CalendarのAPIから取得することにする。こういう情報は国がcsvでもなんでも良いからさらっと提供してくれると助かるのだけど。 続きを読む

2014年12月12日

おまじない

# -*- coding: utf-8 -*-
# ↑ おまじない

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# ↑ おまじない

2014年12月09日

matplotlibのfill_betweenの簡易サンプルコード

とりあえず適当に (0.0, 0.1) 〜 (1.0, 0.9) に向かう線を引いてみる。

from matplotlib import pylab as plt
import numpy as np

intercept = 0.1
coef = 0.8
line = np.linspace( intercept, intercept + 1 * coef, 2 )
plt.plot( line )
plt.ylim( (0, 1.0) )
plt.show()
続きを読む

2014年12月01日

日記的なもの

胃腸風邪でダウンする。最近、没頭し過ぎると身体のどこかにガタが来る。

これが年齢というヤツだろうか。難儀な話だ。もっと気楽に没頭したいのに。
続きを読む

2014年11月26日

pandasのplotで日本語を使う

デフォルトだとtitleとかcolumnsに日本語使うと化けたので、matplotlib.rcで設定してみる。 続きを読む

2014年10月06日

日記的なもの

仕事漬けの日々。

ようやくデータが揃ってきて分析らしい仕事ができるようになってきたので(これまでは開拓しては失敗しての繰り返しだった……)、休日も休まずにあれこれ数字を見て楽しんでいる。

溺れそう。
続きを読む

2014年09月15日

Ubuntuでcanopy使うとrequire wxPython >= 2.8的なエラーが出る

Pythonによるデータ分析入門を買ったのでcanopyを試してみたところ、pylabを使うところで下記のようなエラーが出る。

ImportError: Matplotlib backend_wx and backend_wxagg require wxPython >=2.8

versionはcanopy1.4.1(64bit)。
続きを読む

2014年09月01日

日記的なもの

主に読書感想文。

多分、夏休みの宿題。大人は自分に宿題を出し、自分で採点するものなのです。



続きを読む

2014年08月16日

pythonで日付の加算

なんかよく同じものを書いてる気がしたので貼っておく。

2014/8/1〜8/31までをyyyymmddで出力する例。

from datetime import datetime, timedelta

start_dt = datetime(2014, 8, 1)
for i in range(0, 31):
  dt = ( start_dt + timedelta( days = i ) ).strftime( '%Y%m%d' )
  print( dt )

2014年08月10日

jodaで直近の日曜を取得する

下記のような書き方ができる。

dt.withDayOfWeek(DateTimeConstants.SUNDAY)

dtが左だった場合、右に変換される。

7/26(Sun) → 7/27(Sun)
7/27(Sun) → 7/27(Sun)
7/28(Mon) → 8/03(Sun)
7/29(Tue) → 8/03(Sun)

前回の日曜日を取りたい、つまり7/28(Sun)なら7/27(Sun)を取りたい場合はどうするか。とりあえず1週減らして取ればいいか。

dt.minusWeeks(1).withDayOfWeek(DateTimeConstants.SUNDAY)

この場合、7/27(Sun)は7/20(Sun)になる。7/27→7/27にしたい場合は、6日減らす感じだろうか。

dt.minusDays(6).withDayOfWeek(DateTimeConstants.SUNDAY)

Java8のTime APIの場合はwithでTemporalAdjusters使うなど書き方が違う。けっこう面倒。

日記的なもの

観葉植物の状況。

ポトスが恐ろしい勢いで成長している。葉の数は3ヶ月の間に2倍弱にまでなった。

パセリを枯らしてしまう。直射日光は当たらない場所にしていたのだけど、この時期のベランダは暑すぎたようだ。反省。

代わりにコーヒーの木を買う。水やりは頻繁にして、陽の当たる場所に置くと良いらしい。この時期の日差しでも大丈夫だろうか。一応、熱帯の植物だから大丈夫だと思うけど、コンクリート砂漠の威力がどの程度なのかよくわからない。

最近、家で虫を見かけない。初夏の頃はベランダを元気に飛び回っている姿を何度か見かけたのだけど、今の気温はおそらく生物の生きられる温度ではないのだろう。

続きを読む

2014年07月31日

hive0.13でstored as textfileで作ったテーブルでjoinすると起こることがあるバグ

hive0.13を使っている際にNullPointerExceptionが起きて落ちる現象が発生する。

at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255)
at org.apache.hadoop.hive.ql.io.HiveInputFormat.getSplits(HiveInputFormat.java:300)
at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getSplits(CombineHiveInputFormat.java:371)
続きを読む

2014年07月29日

HIVE 0.13でGROUP BYしてCOUNTして上位10件をCOLLECT_ALLしてarrayで取得する

というようなことをする為にクエリを書く。もっと良い書き方があるような気もする。

StackOverFlowを見たらRankを使おうみたいなことが書いてあったけど、サンプルがうまく動かなかったのでROW_NUMBERを使用。0.11以降実装されているらしい。

下記クエリの仕様は、page_id, user_idが記述されているアクセスログ的なテーブルを集計して、各page_idを訪れているuser_id上位10件を出すものとする。page_idはurl encodeする。 続きを読む