如何逃避猪的角色?

时间:2016-02-15 06:08:06

标签: apache-pig

我有一个像这样的txt文件。

    PersonA , "3115,Clark Street Buford, GA 30518"
    PersonB , "1656, Ashley Court Ridgefield, CT 06877"

我需要将这些数据加载到pig中(分隔符应该是“,”)。 这该怎么做?如何检查地址内的逗号?

输出应该是这样的。

PersonA , "3115,Clark Street Buford, GA 30518"
PersonB , "1656, Ashley Court Ridgefield, CT 06877"

但产生的输出是。

  PersonA , "3115
  PersonB , "1656

1 个答案:

答案 0 :(得分:0)

为此你必须使用正则表达式命令,即.. REGEX_EXTRACT_ALL()

此代码:

a = LOAD '<path_Of_File>' as line;

b = FOREACH a GENERATE FLATTEN(REGEX_EXTRACT_ALL(line,'(.*)[,](.*)'))  AS (f1,f2);

dump b;