我有大量的非结构化文本文档,对于每个文档,我想要一个向量空间表示,这样我就可以很容易地将文档分类成簇并进行语义本质分析。将文档传输到向量空间的方法很多,如词袋(BOW)模型,潜在语义分析(LSA),n克模型等。但我认为所有这些都需要关键字的字典。(不确定)但是如果没有查询,如何为大量文档生成字典?(1百万)如何确定文档中的重要单词?< / p>
答案 0 :(得分:1)
您可以使用简单的频率模型来确定哪些单词很重要,并且需要包含在词典或词典中。该模型假设总计数较低(低于某个阈值)的单词不重要,可以安全地排除。
您可以使用简单的频率模型从一个非常大的字典开始,然后使用信息增益,互信息,卡方等特征选择方法来进一步缩小词典的大小(参见“比较研究”)在文本分类中的特征选择“由Yang和Pedersen提供有关特征选择方法的更多信息。”