如何查找HDFS中存储的两个PDF之间的相似性得分

时间:2018-07-20 07:05:21

标签: pdf comparison hdfs artificial-intelligence cosine-similarity

我将PDF作为非结构化数据存储在Hadoop HDFS中。我想知道两个PDF是否相似,这两个PDF的相似点和不同点是什么。

我对此并不陌生,因此如果您可以帮助我提供代码及其详细信息,这将非常有帮助。

1 个答案:

答案 0 :(得分:0)

如果这些PDF文件是纯文本,则可以首先使用How to extract text from a PDF?中的工具从pdf文件中提取文本,然后计算这些文本的某种LSH(例如simhash)。

然后,可以将两个文件的LSH的距离用作差异。