如何在R中识别相似的文档?

时间:2019-06-05 12:56:24

标签: r

在这个阶段,我正在寻找可以解决我的问题的选项,因此我希望能从其他人那里获得建议。我正在整理数百个文档,并希望减少手动处理。绝大多数是套用信函,因此我想识别和分组每种套用信函。

这些文档是PDF,Word和HTML的混合体,并且我已经能够从PDF文档中提取文本(尚未尝试使用Word或HTML,但应该很容易)。但是,一旦进入这个阶段,我只是不知道下一步要做什么,例如,确定文档A和文档B几乎相同,除了提交者的姓名和组织等小改动。

0 个答案:

没有答案