首先发布在这里,任何帮助将不胜感激:)。 我试图从一个嵌入了pdf查看器的网站上搜集一下。据我所知,没有办法直接下载PDF文件。
浏览器将pdf显示为多个PNG图像文件,问题是png文件也无法直接访问。它们从原始pdf渲染,然后显示。
带有标题的网址在代码块中。
pdf查看器的原始URL(我使用第二个URL)以及用于呈现pdf的链接都包含在代码中。
我的策略是使用urllib拉取viewstate和eventvalidation,然后使用wget从站点下载所有文件。此方法无需发布数据即可正常工作(第1页)。我从fiddler(嗅探工具)获得其余参数
但是当我使用帖子数据来指定页面时,在尝试下载图像文件时会出现405这样的错误。但是,它下载实际的html页面没有问题,只是没有与它一起的png文件。以下是wget错误的示例。
发送HTTP请求,等待响应... 405方法不允许 2014-03-27 17:09:38错误405:方法不允许。
由于我无法直接访问图像文件链接,我认为用wget抓取整个页面是我最好的选择。如果有人知道更好的选择,请告诉我:)。由于下载的html文件设置为我在参数中指定的页面,因此帖子数据似乎至少部分起作用。
根据fiddler的说法,该网站会自动对图像文件进行获取请求。我不太确定如何模仿这个。
感谢您的帮助,感谢您的帮助!
imglink = 'http://201.150.36.178/consultaexpedientes/render/2132495e-863c-4b96-8135-ea7357ff41511.png'
origurl = 'http://201.150.36.178/consultaexpedientes/sistemas/boletines/wfBoletinVisor.aspx?tomo=1&numero=9760&fecha=14/03/2014%2012:40:00'
url = 'http://201.150.36.178/consultaexpedientes/usercontrol/Default.aspx?name=e%3a%5cBoletinesPdf%5c2014%5c3%5cBol_9760.pdf%7c0'
f = urllib2.urlopen(url)
html = f.read()
soup = BeautifulSoup(html)
eventargs = soup.findAll(attrs={'type':'hidden'})
reValue = re.compile(r'value=\"(.*)\"', re.DOTALL)
viewstate = re.findall(reValue, str(eventargs[0]))[0]
validation = re.findall(reValue, str(eventargs[1]))[0]
params = urllib.urlencode({'__VIEWSTATE':viewstate,
'__EVENTVALIDATION':validation,
'PDFViewer1$PageNumberTextBox':6,
'PDFViewer1_BookmarkPanelScrollX':0,
'PDFViewer1_BookmarkPanelScrollY':0,
'PDFViewer1_ImagePanelScrollX' : 0,
'PDFViewer1_ImagePanelScrollY' : 0,
'PDFViewer1$HiddenPageNumber':6,
'PDFViewer1$HiddenAplicaMarcaAgua':0,
'PDFViewer1$HiddenBrowserWidth':1920,
'PDFViewer1$HiddenBrowserHeight':670,
'PDFViewer1$HiddenPageNav':''})
command = '/usr/bin/wget -E -H -k -K -p --post-data=\"%s' % params + '\" ' + url
print command
os.system(command)