我在python中使用pdfquery库来提取文本。为此,我加载pdf,直到现在它始终有效。 但当我尝试使用pdf时,我面临以下问题:
当我运行代码时:
import pdfquery
pdfQuery = pdfquery.PDFQuery('10241.pdf')
pdfQuery.load()
该计划似乎陷入困境,永远不会完成。
有没有人遇到过这个问题,或者有任何建议如何克服它?
感谢。
答案 0 :(得分:1)
您的PDF有多少页?
指定要加载的页数可能会有所帮助:
pdfQuery.load(0)
上面的代码只会加载第一页并节省时间。