如何在Spark / Scala ML中使用RegexTokenizer()删除标签?

时间:2019-10-20 21:04:25

标签: regex scala apache-spark

我有一个功能列,其中包含HTML标记。我想删除所有标签。 来自“ body”列的一行数据的示例如下:

"<p>Are questions related to and similar products on-topic?</p>"

我希望使用RegexTokenizer()之后的输出如下:

"are questions related to and similar products on-topic?"

这是我开始的内容:

val regexTokenizer = new RegexTokenizer()
  .setInputCol("body")
  .setOutputCol("removedTags")
  .setPattern("")

我认为我需要修复.setPattern(),但不确定如何修复。

1 个答案:

答案 0 :(得分:1)

假设您的字符串中可能没有其他<>

<[^>]+>

用空字符串替换在某种程度上可以正常运行,otherwise it'd fail


如果您希望简化/修改/探索表达式,请在regex101.com的右上角进行说明。如果愿意,您还可以在this link中查看它如何与某些示例输入匹配。