将一个文本文件聚类到python中的组和主题

时间:2014-04-25 02:18:56

标签: python cluster-analysis text-mining feature-extraction text-analysis

我是文本挖掘方面的新手,我有一个非常大的文本文件,其中每一行代表一个项目(一个句子)的评论。

我想找到评论中存在的群组和主题。 所以我的问题是我的数据的功能,组和主题是什么?每个单词的出现频率是否可以用作特征?我们是否必须将每一行(审核)视为文档本身,然后我们必须对评论进行聚类?我还想知道先前是否应该知道组或主题的数量,因为在任何无监督算法中,群集的数量应该是已知参数。

我的第二个问题是如何编辑此k-means clustering code以查找群组,NMF code可以使用我的reviews.txt文件来编辑主题。

1 个答案:

答案 0 :(得分:2)

首先,正如评论中所建议的那样,您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval

现在尝试简要回答您的问题:

//我的问题是什么是特征// - 与大多数文本挖掘问题一样,你的案例中的特征可能是每个句子中的术语(单词)。您可以估算术语频率并使用TF-IDF表示,这是一种非常流行的表示文档的方式。

// groups // - 由于每个句子代表一个单独的评论,您可以将每个句子视为一个小文档,并使用document clustering来识别这些组。

//我的数据的主题?// - 是的,有一些名为topic modelling的东西,它可以帮助您从一组文档中识别主题。但是,不确定它是否适用于您的问题。

//我们是否必须将每一行(评论)视为文档本身,然后我们必须对评论进行聚类? // - 是的。

//我也想知道先前是否应该知道组或主题的数量,因为在任何无监督算法中,簇的数量应该是已知参数.// - 实际情况并非如此。许多聚类算法不期望先前的知识。群集,例如hierarchical clusteringaffinity propagation。即使对于期望不行的算法也是如此。对于群集,有number of ways来预测这一点。