2015年07月14日

hiveでヘッダ付きのcsvファイルをテーブルにロードする

csvファイルをhiveに読ませる場合に、ヘッダが付いていたらどうするか。そのまま読み込ませるとヘッダ行も列に追加されてしまう。

hive0.13からはskip.header.line.countを指定して、行を飛ばせるらしい。ついでにフッタ行を飛ばす skip.footer.line.count もいるようだ。

下記、サンプルのcreate文。最後の行でtblpropertiesに1行ヘッダスキップする設定にしている。 続きを読む