使用Python分析PDF文件

时间:2014-06-16 18:36:53

标签: pdf hash output

我编写了一个检测恶意pdf文件的代码。 我需要做的是:

我扫描的每个pdf我想将其哈希值保存在哈希数据库中,输出将保存在输出容器中, 所以,如果我有另一个要扫描的pdf文件,我将检查它的哈希值,如果存在于哈希数据库中,那么我将打印输出容器的输出。 但是如果哈希值不存在,那么它将被添加到哈希数据库中,输出将被添加到输出容器中。

我怎么能这样做以及将哈希值与输出容器中的输出相关联的方法

1 个答案:

答案 0 :(得分:0)

您担心哪种恶意文件?损坏的文件或带有病毒的pdf?

要在python中使用pdf,您可以使用 pyPdf

然后你可以打开文件:

from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))

这样您将检查它是否是有效文件。

关于链接,可以在数据库中进行吗?