我是文本挖掘方面的新手,我有一个非常大的文本文件,其中每一行代表一个项目(一个句子)的评论。
我想找到评论中存在的群组和主题。 所以我的问题是我的数据的功能,组和主题是什么?每个单词的出现频率是否可以用作特征?我们是否必须将每一行(审核)视为文档本身,然后我们必须对评论进行聚类?我还想知道先前是否应该知道组或主题的数量,因为在任何无监督算法中,群集的数量应该是已知参数。
我的第二个问题是如何编辑此k-means clustering code以查找群组,NMF code可以使用我的reviews.txt文件来编辑主题。
答案 0 :(得分:2)
首先,正如评论中所建议的那样,您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval。
现在尝试简要回答您的问题:
//我的问题是什么是特征// - 与大多数文本挖掘问题一样,你的案例中的特征可能是每个句子中的术语(单词)。您可以估算术语频率并使用TF-IDF表示,这是一种非常流行的表示文档的方式。
// groups // - 由于每个句子代表一个单独的评论,您可以将每个句子视为一个小文档,并使用document clustering来识别这些组。
//我的数据的主题?// - 是的,有一些名为topic modelling的东西,它可以帮助您从一组文档中识别主题。但是,不确定它是否适用于您的问题。
//我们是否必须将每一行(评论)视为文档本身,然后我们必须对评论进行聚类? // - 是的。
//我也想知道先前是否应该知道组或主题的数量,因为在任何无监督算法中,簇的数量应该是已知参数.// - 实际情况并非如此。许多聚类算法不期望先前的知识。群集,例如hierarchical clustering,affinity propagation。即使对于期望不行的算法也是如此。对于群集,有number of ways来预测这一点。