标签: text-mining stop-words stemming estimation
我读过Greene,Ceron,Schumacher和Fazekas的一篇文章,名为“自动文本分析的基本要素:比较四个国家的不同文档预处理技术”。
在本文中,作者指出,分别使用词干和停用词删除功能可减少缩放比例估计的标准误差(与未预处理的文本相比)。但是当使用它们的组合时,它会增加。
所以您能帮我为什么分别使用这些技术可以提高精度,同时结合使用S.E.。往上走。
预先感谢, J