检测主题词词典中的噪音

时间:2012-11-29 23:32:43

标签: machine-learning nlp classification

我有一个约1500字的字典。并非所有这1500个单词都可以用作文本的主题(其中许多是我字典中的噪音,可能只有2-10%可用作主题),但我想要提供给我的文档的主题可以是发现1500个单词。

因此,我应该从哪里开始,哪种算法可行?谢谢!

1 个答案:

答案 0 :(得分:0)

您可以计算人们分配的每个主题在这些文档中出现的次数。为了解释单词的形态变化,您可以使用词干分析器或lemmatiser(例如,用于Java的Stanford PoS标记器或用于Python的NLTK)。然后,您可以根据他们在整个文档集中的计数选择最有用的主题,或者使用tf-idf(http://en.wikipedia.org/wiki/Tf%E2%80%93idf - 在底部页面上有一些实现的链接。)