自然言語処理の業界ではそこそこ使われている青空文庫。
青空文庫の内容はgithubから落とせる。
先日、他の会社から支給されたPCを自分用にセットアップしようとした時に「自宅で入れてるあのアドオンなんだっけ」的な状態になったので、一覧を更新しておく。 続きを読む
IPythonのresetみたいなヤツが理想。
使用バージョンは0.3.3 続きを読む
pip installしようとすると、下記のようなエラーを吐くようになった。 続きを読む
vimでJuliaのシンタックスハイライトをしたかったので、julia-vimを入れる。
以下、手順ログ。続きを読む
google-api-python-clientとpandasを一緒に入れると、バージョンによってはpandasがimportできなくなるらしい。続きを読む
日本の祝祭日の情報が欲しかったんだけど、あまり良いAPIが見当たらなかったので、Google CalendarのAPIから取得することにする。こういう情報は国がcsvでもなんでも良いからさらっと提供してくれると助かるのだけど。 続きを読む
# -*- coding: utf-8 -*- # ↑ おまじない import sys reload(sys) sys.setdefaultencoding("utf-8") # ↑ おまじない
とりあえず適当に (0.0, 0.1) 〜 (1.0, 0.9) に向かう線を引いてみる。
from matplotlib import pylab as plt import numpy as np intercept = 0.1 coef = 0.8 line = np.linspace( intercept, intercept + 1 * coef, 2 ) plt.plot( line ) plt.ylim( (0, 1.0) ) plt.show()続きを読む
デフォルトだとtitleとかcolumnsに日本語使うと化けたので、matplotlib.rcで設定してみる。 続きを読む
なんかよく同じものを書いてる気がしたので貼っておく。
2014/8/1〜8/31までをyyyymmddで出力する例。
from datetime import datetime, timedelta start_dt = datetime(2014, 8, 1) for i in range(0, 31): dt = ( start_dt + timedelta( days = i ) ).strftime( '%Y%m%d' ) print( dt )
hive0.13を使っている際にNullPointerExceptionが起きて落ちる現象が発生する。
at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255) at org.apache.hadoop.hive.ql.io.HiveInputFormat.getSplits(HiveInputFormat.java:300) at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getSplits(CombineHiveInputFormat.java:371)続きを読む
というようなことをする為にクエリを書く。もっと良い書き方があるような気もする。
StackOverFlowを見たらRankを使おうみたいなことが書いてあったけど、サンプルがうまく動かなかったのでROW_NUMBERを使用。0.11以降実装されているらしい。
下記クエリの仕様は、page_id, user_idが記述されているアクセスログ的なテーブルを集計して、各page_idを訪れているuser_id上位10件を出すものとする。page_idはurl encodeする。 続きを読む