我有一个来自twitter的数据集。我需要删除与特定单词相关的推文。 我使用了“过滤器示例”运算符,并选择了“条件类”->“属性值”。我遵循了Rapidminer指南,但无法正常工作。 它说:
“当参数'attribute_value_filter'被选择为条件类时,此参数可用。条件格式为属性名称,后跟比较函数和要匹配的值。 可以用=和!=将标称属性与任意字符串进行比较,该字符串还可以包含正则表达式。“
因此,我输入:
text{=strike!=}
还尝试了:
text=strike!=
“文字” 是我的属性的名称 “罢工” 是我要删除的词。
但是,我遇到此错误:
有人可以指出我做错了什么吗?我已经尝试了几种变体,但由于某些白痴原因,它无法正常工作。
请客气,我对此很陌生,我的论文真的很需要它。非常感谢!!!
答案 0 :(得分:0)
要过滤掉包含某个单词的推文,您需要使用正则表达式语法。 最简单的表达是:
text != .*strike.*
但这也会过滤掉 strike 是另一个单词的一部分的文本,因此
可能更合适的是:
text != .*\sstrike[\s\.\!\,\.\:$].
阅读为:过滤掉 text 中的任何示例,其中在罢工之前是任意字符和空格,然后是空格,标点符号或行尾。