如何从Pig上的文本中提取所有匹配项

时间:2017-03-23 11:20:25

标签: apache-pig

我有这样的元组:{title: chararray, textWithLinks: chararray}

示例:(Title1, some text [[link]] some text [[link]] some text... )

我需要从文本中提取所有链接并获取元组: (Title,(link1, link2, link3...))

我该怎么做? RegexExtract或RegexExtractAll只提取一个或几个链接,但不是全部。

1 个答案:

答案 0 :(得分:0)

创建自定义UDF,它将提取链接并使用它们返回DataBag。 由于UDF是任何扩展EvalFunc的自定义Java代码,因此您可以执行任何想要提取这些链接的内容