在Hadoop / Pig中匹配过滤

时间:2016-10-03 19:44:16

标签: hadoop apache-pig

我正在尝试学习Hadoop / Pig并且一直在使用AWS,

日期看起来像这样(每列包含各种网站):

 <http://openean.kaufkauf.net/id/businessentities/GLN_7654990000088> 
 <http://www.w3.org/2000/01/rdf-schema#isDefinedBy> 
 <http://openean.kaufkauf.net/id/businessentities/> 
 <http://openean.kaufkauf.net/id/businessentities/GLN_6406510000068> .

我正在尝试过滤包含'business'的行但过滤器不断返回0条记录。 my_data的格式如上,有3列,第一列是上面显示的主题,我想要过滤的内容。我有:

filter1 = FILTER my_data BY subject=='.*business.*';

不确定为什么这没有返回任何内容,因为'business'绝对是3条记录。

1 个答案:

答案 0 :(得分:3)

试试这个

xmlDoc.Save()