我想将数据从HDFS加载到HBSE表唱歌PIG脚本。
我有hadfs文件夹结构如下:
-rw-r--r-- 1 user supergroup 63 2014-05-15 20:28 dataparse/good/goodrec_051520142028
-rw-r--r-- 1 user supergroup 72 2014-05-15 20:30 dataparse/good/goodrec_051520142030
-rw-r--r-- 1 user supergroup 110 2014-05-15 20:32 dataparse/good/goodrec_051520142032
在上面所有文件名都附有时间戳。
以下是从HDFS加载到HBASE的我的PIG脚本:
G = LOAD '/user/user/dataparse/good/' USING PigStorage(',') as (c1:chararray, c2:chararray,c3:chararray,c4:chararray,c5:chararray);
STORE G INTO 'hbase://test' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('t1:name t1:state t1:phone_no t1:gender');
脚本运行正常,所有3个文件中的数据都写入Hbase“ test ”表。
假设一段时间后,如果有更多文件进入具有相同结构的HDFS,当我运行pig脚本时,它将加载“ good ”目录中的所有文件以及已读取的文件。那么我怎样才能加载那些新文件的文件。已加载的文件不应再次加载到我的HBASE表中。
我该怎么做?
谢谢, Sapthashree