使用open refine删除停用词

时间:2018-04-10 15:34:59

标签: jython openrefine

遵循此示例https://github.com/OpenRefine/OpenRefine/wiki/Recipes#removeextract-words-contained-in-a-file

我正在尝试使用open refine

删除文件中列出的停用词

示例:您希望从文本中删除桌面上文件中包含的所有停用词。在这种情况下,请使用Jython。

with open(r"C:\Users\ettor\Desktop\stopwords.txt",'r') as f :
    stopwords = [name.rstrip() for name in f]

return " ".join([x for x in value.split(' ') if x not in stopwords])

不幸的是内部错误

1 个答案:

答案 0 :(得分:0)

是的,此脚本可以在此截屏视频中看到。

enter image description here

我改变了一点,忽略了字母大小写。

with open(r"~\Desktop\stopwords.txt",'r') as f :
    stopwords = [name.rstrip().lower() for name in f]

return " ".join([x for x in value.split(' ') if x.lower() not in stopwords])

在Open Refine的Python脚本中,“内部错误”通常意味着语法错误,例如遗忘的括号或错误的缩进。