标签: nlp information-retrieval lda topic-modeling wsd
在执行NLP或IR / IE相关任务时,是否有人们通常用来删除标点和关闭类词(例如he, she, it)的停用词列表?
he, she, it
我一直在尝试使用gibbs采样进行主题建模,用于词义消歧,并且它不断地给出标点符号和关闭类词高概率,因为它们经常出现在语料库中。 https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py
答案 0 :(得分:5)