NLP的停用词列表

时间:2013-02-18 09:46:11

标签: nlp information-retrieval lda topic-modeling wsd

在执行NLP或IR / IE相关任务时,是否有人们通常用来删除标点和关闭类词(例如he, she, it)的停用词列表?

我一直在尝试使用gibbs采样进行主题建模,用于词义消歧,并且它不断地给出标点符号和关闭类词高概率,因为它们经常出现在语料库中。 https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

1 个答案:

答案 0 :(得分:5)

你尝试使用Google搜索吗?我得到的热门点击包含停用词列表或链接到所述列表的堆栈溢出帖子: