如何在Python3中使用pdf2txt打开基于Web的PDF

时间:2016-05-10 08:22:57

标签: python python-2.7 python-3.x pdf

我用Python3中的pdfminer pdf2txt成功解析了本地PDF。 我使用以下代码:

dataGridView1.Rows.Add(dt.Rows[i].ItemArray);

我想知道是否有任何方法可以使用pdf web链接而不是本地文件。我不知道如何宣布这一点。我尝试了引号和括号但是有错误。

2 个答案:

答案 0 :(得分:0)

Python在标准库中有urllib,用于检索您可以使用的网址的内容urlretrieve

import urllib2
urllib.urlretrieve('http://www.example.com/myfile.pdf', 'myfile_local.pdf')

在Python 3中,我认为在urllib.request.urlretrieve

中隐藏得更深一些

我不知道您使用的操作系统,但您也可能只想使用命令行中的wget程序,这样您就不必编写任何Python代码来进行检索。

答案 1 :(得分:0)

不幸的是pdf2txt.py不支持解析流式PDF文档。内部需要在文件中进行搜索,这很难通过流来实现。

您唯一的选择是将PDF文档下载到您的文件系统,然后在其上调用pdf2txt.py。有许多工具可以下载URL资源,例如: curl,wget,et al。,或者你可以用Python编写自己的。

您可以轻松制作shell,批处理或Python脚本,将PDF文件下载到临时文件,运行pdf2txt.py,然后进行清理。