我正在尝试从此网站获取数据:Website link。
我想从特定日期下载所有PDF文件。
虽然我设法从第一页获取文件并正确下载,但我无法更改日期,因此我可以在之前的日期返回并获取旧的PDF。
我试过这一行:
scrapy.FormRequest.from_response(response,formxpath='//table//td//input[@type="text"]', formdata={'value': "20.05.2017"}, clickdata={'type':'submit'}, method='POST')
在scrapy shell中,view(response)
总是显示当前日期。
我不确定这是否正确,我是scrapy的新手并且我正试图解决问题。我认为该方法是正确的,因为当我更改链接没有更改的日期时,它应该是POST
而不是GET
。
有关如何使其工作的任何想法?
我认为FormRequest()
是最好的选择,但我还没有在网上看到任何其他的例子,scrapy网站上的文档对我没那么帮助,所以我尝试过要研究涉及登录凭据的示例,他们都使用了FormRequest.from_response()
PS:我已经包含了与日期更改有关的HTML代码段的屏幕截图。
答案 0 :(得分:1)
输入字段名称为"日期"而不是"值":
<form id="dailyFekForm" name="dailyFekForm" action="/idocs-nph/search/dailyFekForm.html" method="post">
<br>
<div>
</div>
<div class="non-printable" style="padding-left:20px;">
<table>
<tr>
<td style="font-size:100%; color:#3399FF;" align="left" >
<table>
<tr>
<td valign="center" style="font-size:100%; color:#3399FF;" ><b>Ημερομηνία Κυκλοφορίας</b></td>
<td>
<img title="Επιλέξτε ημερομηνία για ημερήσια κυκλοφορία" border="0" src="/idocs-nph/images/tooltip.gif" >
</td>
</tr>
</table>
</td>
<td><input id="date" name="date" type="text" value="29.05.2017"/></td>
<td><img src="/idocs-nph/images/admin/calendar.gif" id="triggerDate"/></td>
<td><input class="save" type="submit" value="Αναζήτηση" name="search" id="search"/></td>
</tr>
</table>
您还可以使用其开发工具检查浏览器发送的内容:http://imgur.com/a/ztDtF(选中&#34;表格数据&#34;底部)
因此,您可以使用:
scrapy.FormRequest.from_response(response,formdata={'date': "19.05.2017"})
使用scrapy shell的示例会话,显示不同的表行:
$ scrapy shell http://www.et.gr/idocs-nph/search/dailyFekForm.html
>>> from pprint import pprint
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall())
['ΦΕΚ A 77 - 26.05.2017',
'ΦΕΚ B 1836 - 25.05.2017',
'ΦΕΚ B 1837 - 25.05.2017',
(...)
'ΦΕΚ Α.Α.Π. 112 - 25.05.2017',
'ΦΕΚ Α.Α.Π. 113 - 26.05.2017',
'ΦΕΚ Α.Α.Π. 114 - 26.05.2017',
'ΦΕΚ Α.Α.Π. 115 - 26.05.2017']
>>> fetch(scrapy.FormRequest.from_response(response,formdata={'date': "19.05.2017"}))
2017-05-29 14:42:50 [scrapy.core.engine] DEBUG: Crawled (200) <POST http://www.et.gr/idocs-nph/search/dailyFekForm.html> (referer: None) ['partial']
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall())
['ΦΕΚ A 72 - 19.05.2017',
'ΦΕΚ A 73 - 19.05.2017',
'ΦΕΚ A 74 - 19.05.2017',
(...)
'ΦΕΚ Υ.Ο.Δ.Δ. 234 - 18.05.2017',
'ΦΕΚ Α.Α.Π. 105 - 16.05.2017',
'ΦΕΚ Α.Α.Π. 108 - 16.05.2017']
>>> fetch(scrapy.FormRequest.from_response(response,formdata={'date': "16.05.2017"}))
2017-05-29 14:45:53 [scrapy.core.engine] DEBUG: Crawled (200) <POST http://www.et.gr/idocs-nph/search/dailyFekForm.html> (referer: None) ['partial']
>>> pprint(response.css('table#result_table tr:not(.prop) td b').xpath('normalize-space()').getall())
['ΦΕΚ A 69 - 16.05.2017',
'ΦΕΚ B 1638 - 15.05.2017',
'ΦΕΚ B 1639 - 15.05.2017',
(...)
'ΦΕΚ Υ.Ο.Δ.Δ. 228 - 16.05.2017',
'ΦΕΚ Υ.Ο.Δ.Δ. 229 - 16.05.2017',
'ΦΕΚ Α.Α.Π. 102 - 15.05.2017']
>>>