有一些标准的停止列表,提供类似于"的不是"从语料库中删除。但是,我想知道,停止名单是否会逐个变化?
例如,我有10K的期刊文章,然后由于文章的结构,基本上你会看到像"介绍,评论,结论,页面"在每篇文章中。我担心的是:我们应该从语料库中删除这些词吗? (每个文件都有的话?)感谢每一条评论和建议。
答案 0 :(得分:4)
我正在研究类似的问题,但文本分类。根据我的经验,最好有一个特定于域的停用词列表以及标准。 名单。否则,如果你已经尝试过分析它,那么像“引言”,“评论”等这些词会出现在术语频率矩阵中。它可以通过为这些特定领域的关键字提供更多权重来误导您的模型。
答案 1 :(得分:0)
值得考虑的是停止词可能不会像你担心的那样影响你的模型。您是否尝试过删除它们并比较结果?
另见2017年的论文:“拉出停止:重新思考主题模型的删除词。” http://www.cs.cornell.edu/~xanda/stopwords2017.pdf
总之,他们说(释义)删除停用词对LDA模型的质量没有真正的负面影响,如果需要,它们仍然可以在不影响模型的情况下被删除。
或者,您可以自动删除具有高文档频率的单词,即设置单词可以出现的文档数量的阈值(例如50%),并删除比停用词更频繁的所有单词。 我不认为这会对模型本身产生有意义的影响,但我确信它会加速模型的计算,因为计算的字数较少。