标签: machine-learning text-mining unsupervised-learning
我有一个文件存储库。这些文件是由人类创建的普通英文文本。每个文件包含几个描述某些事件的段落。 现在,由于每个人都不同,因此可以用不同的措辞写出两个或更多个事件,具有不同的语法。即使是同一个人也可能倾向于用不同的语言写出不同语言的事件。
如何找到并将类似文件聚集在一起?
答案 0 :(得分:0)
有各种方法。您可以尝试Clustering text documents using k-means。另见讨论here。