我有一个像这样的txt文件。
PersonA , "3115,Clark Street Buford, GA 30518"
PersonB , "1656, Ashley Court Ridgefield, CT 06877"
我需要将这些数据加载到pig中(分隔符应该是“,”)。 这该怎么做?如何检查地址内的逗号?
输出应该是这样的。
PersonA , "3115,Clark Street Buford, GA 30518"
PersonB , "1656, Ashley Court Ridgefield, CT 06877"
但产生的输出是。
PersonA , "3115
PersonB , "1656
答案 0 :(得分:0)
为此你必须使用正则表达式命令,即.. REGEX_EXTRACT_ALL()
此代码:
a = LOAD '<path_Of_File>' as line;
b = FOREACH a GENERATE FLATTEN(REGEX_EXTRACT_ALL(line,'(.*)[,](.*)')) AS (f1,f2);
dump b;