Question

我用Python3中的pdfminer pdf2txt成功解析了本地PDF。我使用以下代码：

dataGridView1.Rows.Add(dt.Rows[i].ItemArray);

我想知道是否有任何方法可以使用pdf web链接而不是本地文件。我不知道如何宣布这一点。我尝试了引号和括号但是有错误。

Answer 1

Python在标准库中有urllib，用于检索您可以使用的网址的内容urlretrieve：

import urllib2
urllib.urlretrieve('http://www.example.com/myfile.pdf', 'myfile_local.pdf')

在Python 3中，我认为在urllib.request.urlretrieve

中隐藏得更深一些

我不知道您使用的操作系统，但您也可能只想使用命令行中的wget程序，这样您就不必编写任何Python代码来进行检索。

Answer 2

不幸的是pdf2txt.py不支持解析流式PDF文档。内部需要在文件中进行搜索，这很难通过流来实现。

您唯一的选择是将PDF文档下载到您的文件系统，然后在其上调用pdf2txt.py。有许多工具可以下载URL资源，例如： curl，wget，et al。，或者你可以用Python编写自己的。

您可以轻松制作shell，批处理或Python脚本，将PDF文件下载到临时文件，运行pdf2txt.py，然后进行清理。