应用错误收集

文件重复性算法

时间：2019-05-06 19:34:27

标签： machine-learning nlp natural-language-processing

我收集了在两个不同时间段写的文件的集合。有人暗示，在时期1中编写的文档比在时期2中编写的文档更简洁。它们都在同一主题上。

我唯一能想到的就是使用LZW算法，并以压缩/原始的比率来计算文档的简洁程度。

我希望结果是：

文档1-重复性指数或百分比= 25％或类似指标。之后，我将创建具有重复性索引的不同时期文档的数据框，并进行统计检验以查看其统计意义。

0 个答案:

没有答案