Question

我在python中使用pdfquery库来提取文本。为此，我加载pdf，直到现在它始终有效。但当我尝试使用pdf时，我面临以下问题：

当我运行代码时：

import pdfquery
pdfQuery = pdfquery.PDFQuery('10241.pdf')
pdfQuery.load()

该计划似乎陷入困境，永远不会完成。

有没有人遇到过这个问题，或者有任何建议如何克服它？

感谢。

Answer 1

您的PDF有多少页？

指定要加载的页数可能会有所帮助：

pdfQuery.load(0)

上面的代码只会加载第一页并节省时间。