我有这样的元组:{title: chararray, textWithLinks: chararray}
示例:(Title1, some text [[link]] some text [[link]] some text... )
我需要从文本中提取所有链接并获取元组:
(Title,(link1, link2, link3...))
我该怎么做? RegexExtract或RegexExtractAll只提取一个或几个链接,但不是全部。
答案 0 :(得分:0)
创建自定义UDF,它将提取链接并使用它们返回DataBag。 由于UDF是任何扩展EvalFunc的自定义Java代码,因此您可以执行任何想要提取这些链接的内容