我目前正在尝试以pdf格式提取输入的数据。在PDFbox中,我可以获取AeroForm对象,并看到它只有一个元素。问题是此pdf有48页,几乎每页都有一个表格。现在,我知道如何解析每个表单元素并获取每个表单元素(就像我在其他pdf上所做的那样),但事实是,此pdf只有一种形式且只有一个字段。它叫Gendate,看起来里面有一堆加密的东西。
我在PDFxplorer中查看了它,发现这需要加密以提取404kbs的数据。现在我可以将其展平并对其进行orc,但这很容易出错,我们需要对数据保持准确。 我将发布一个指向包含加密输出的txt文件的链接。
我可以从Adobe Reader正常查看pdf,而无需输入密码。我认为是对它进行加密的所有者密码。 有没有办法提取这些信息?还是文件的哈希?还是可以让我至少读取表格中的数据?
我确实知道用户密码为空,但表单中仍然存在一些未存储在“纯文本”中的内容,以便于提取。 我使用了pdfCrack,但是我不确定如何使用输出的数据。 我明白了:
Security Handler: Standard
V: 1
R: 2
P: 65476
Length: 40
Encrypted Metadata: True
FileID: 916bb1966dd59f2129ade3e439126531
U: 7158e5e11dd9c385534464b63f551b9d55ace51d2daa6522cedca826e9db2883
O: 2055c756c72e1ad702608e8196acad447ad32d17cff583235f6dd15fed7dab67
编辑:这是pdf: https://drive.google.com/file/d/14wbOuSPwH308j0M5-dHesB9YA69ntL01/view?usp=sharing
这是文本文件: https://drive.google.com/file/d/1EuDcAReXstth0EsmOK9zPdL7pLtKFuGZ/view?usp=sharing
注意:是的,我确实知道我可以尝试对它进行暴力破解,但是我打算拥有许多其他pdf文件,但庄严地仅仅执行暴力破解将不会很有效。