文件重复性算法

时间:2019-05-06 19:34:27

标签: machine-learning nlp natural-language-processing

我收集了在两个不同时间段写的文件的集合。有人暗示,在时期1中编写的文档比在时期2中编写的文档更简洁。它们都在同一主题上。

我唯一能想到的就是使用LZW算法,并以压缩/原始的比率来计算文档的简洁程度。

我希望结果是:

  1. 文档1-重复性指数或百分比= 25%或类似指标。之后,我将创建具有重复性索引的不同时期文档的数据框,并进行统计检验以查看其统计意义。

0 个答案:

没有答案