应用错误收集

从存储库中查找类似文件

时间：2017-03-18 03:37:21

标签： machine-learning text-mining unsupervised-learning

我有一个文件存储库。这些文件是由人类创建的普通英文文本。每个文件包含几个描述某些事件的段落。现在，由于每个人都不同，因此可以用不同的措辞写出两个或更多个事件，具有不同的语法。即使是同一个人也可能倾向于用不同的语言写出不同语言的事件。

如何找到并将类似文件聚集在一起？

1 个答案:

答案 0 :(得分：0)

有各种方法。您可以尝试Clustering text documents using k-means。另见讨论here。