标签: pdf comparison hdfs artificial-intelligence cosine-similarity
我将PDF作为非结构化数据存储在Hadoop HDFS中。我想知道两个PDF是否相似,这两个PDF的相似点和不同点是什么。
我对此并不陌生,因此如果您可以帮助我提供代码及其详细信息,这将非常有帮助。
答案 0 :(得分:0)
如果这些PDF文件是纯文本,则可以首先使用How to extract text from a PDF?中的工具从pdf文件中提取文本,然后计算这些文本的某种LSH(例如simhash)。
然后,可以将两个文件的LSH的距离用作差异。