从存储库中查找类似文件

时间:2017-03-18 03:37:21

标签: machine-learning text-mining unsupervised-learning

我有一个文件存储库。这些文件是由人类创建的普通英文文本。每个文件包含几个描述某些事件的段落。 现在,由于每个人都不同,因此可以用不同的措辞写出两个或更多个事件,具有不同的语法。即使是同一个人也可能倾向于用不同的语言写出不同语言的事件。

如何找到并将类似文件聚集在一起?

1 个答案:

答案 0 :(得分:0)

有各种方法。您可以尝试Clustering text documents using k-means。另见讨论here