我正在RapidMiner中执行文本挖掘。我正在抓取一个网站,并做一些预处理任务,如标记,小写和过滤英语停用词;但我仍然得到一些无意义的词,如“xckxzaz”,“xkaffqoxzomd”或像“wpcf”这样的JavaScript代码词。我的问题是,RapidMiner有什么方法可以摆脱这些话吗?我被告知创建一个停用词典是一种解决方案,但这意味着我必须创建一个看起来不那么优秀的完整英语词典。任何提示都将不胜感激!
答案 0 :(得分:0)
您可以使用Filter Tokens
运算符查找特定的无意义字词并设置Invert Condition
标记。如果列表很长,这可能是单调乏味的,因为您需要复杂的正则表达式或“无意义语料库”的多个运算符。对于新的无意义词语也没有弹性。
如果您提前知道所需的英语单词,可以使用单词列表输入Process Documents
运算符。这将消除列表中没有的所有单词,但会遗漏从未见过但您可能想要保留的新单词。您可以使用Process Documents
运算符的输出生成单词列表。
Filter Stopwords (Dictionary)
运算符将消除文件中包含的停用词,因此“您所要做的就是”创建无意义的语料库。
这取决于你的问题是什么,但我会使用保存为文件的原始单词列表输出(使用WordList to Data
和Write CSV
运算符),我会手动编辑以制作废话列表然后我将用作停用词过滤字典的单词。
这是一个棘手的问题,因为问题的实质是决定以前看不见的作品是废话还是英语。例如LOL英语还是废话?