Python使用嵌入式PDF查看器抓取ASP站点

时间:2014-03-28 00:44:00

标签: python html asp.net pdf

首先发布在这里,任何帮助将不胜感激:)。 我试图从一个嵌入了pdf查看器的网站上搜集一下。据我所知,没有办法直接下载PDF文件。

浏览器将pdf显示为多个PNG图像文件,问题是png文件也无法直接访问。它们从原始pdf渲染,然后显示。

带有标题的网址在代码块中。

pdf查看器的原始URL(我使用第二个URL)以及用于呈现pdf的链接都包含在代码中。

我的策略是使用urllib拉取viewstate和eventvalidation,然后使用wget从站点下载所有文件。此方法无需发布数据即可正常工作(第1页)。我从fiddler(嗅探工具)获得其余参数

但是当我使用帖子数据来指定页面时,在尝试下载图像文件时会出现405这样的错误。但是,它下载实际的html页面没有问题,只是没有与它一起的png文件。以下是wget错误的示例。

发送HTTP请求,等待响应... 405方法不允许 2014-03-27 17:09:38错误405:方法不允许。

由于我无法直接访问图像文件链接,我认为用wget抓取整个页面是我最好的选择。如果有人知道更好的选择,请告诉我:)。由于下载的html文件设置为我在参数中指定的页面,因此帖子数据似乎至少部分起作用。

根据fiddler的说法,该网站会自动对图像文件进行获取请求。我不太确定如何模仿这个。

感谢您的帮助,感谢您的帮助!

imglink = 'http://201.150.36.178/consultaexpedientes/render/2132495e-863c-4b96-8135-ea7357ff41511.png'
origurl = 'http://201.150.36.178/consultaexpedientes/sistemas/boletines/wfBoletinVisor.aspx?tomo=1&numero=9760&fecha=14/03/2014%2012:40:00'

url = 'http://201.150.36.178/consultaexpedientes/usercontrol/Default.aspx?name=e%3a%5cBoletinesPdf%5c2014%5c3%5cBol_9760.pdf%7c0'
f = urllib2.urlopen(url)
html = f.read()

soup = BeautifulSoup(html)
eventargs = soup.findAll(attrs={'type':'hidden'})
reValue = re.compile(r'value=\"(.*)\"', re.DOTALL)
viewstate = re.findall(reValue, str(eventargs[0]))[0]
validation = re.findall(reValue, str(eventargs[1]))[0]

params = urllib.urlencode({'__VIEWSTATE':viewstate,
                           '__EVENTVALIDATION':validation,
                           'PDFViewer1$PageNumberTextBox':6,
                           'PDFViewer1_BookmarkPanelScrollX':0,
                           'PDFViewer1_BookmarkPanelScrollY':0,
                           'PDFViewer1_ImagePanelScrollX' : 0,
                           'PDFViewer1_ImagePanelScrollY' : 0,
                           'PDFViewer1$HiddenPageNumber':6,
                           'PDFViewer1$HiddenAplicaMarcaAgua':0,
                           'PDFViewer1$HiddenBrowserWidth':1920,
                           'PDFViewer1$HiddenBrowserHeight':670,
                           'PDFViewer1$HiddenPageNav':''})


command = '/usr/bin/wget -E -H -k -K -p --post-data=\"%s'  % params + '\" ' + url
print command
os.system(command)

0 个答案:

没有答案