有没有办法用POST表单抓取网站?

时间:2016-01-04 11:39:39

标签: python html5 forms post web-crawler

我正在使用Python 3并抓取一些网站。

只要表单在GET中,我就可以轻松解析链接。是否有任何解决方法可以自动下载单击具有 action = POST 的表单后生成的HTML? (谷歌先生没有说出任何有价值的东西......)

由于

1 个答案:

答案 0 :(得分:2)

您可以使用刮刀框架Scrapy。它允许使用POST请求进行抓取。虽然Scrapy可以在Python2中使用(到目前为止)。

Scrapy文档中有an example on how to scrape using POST requests

如果您的抓取工作很简单,可以使用Requests library。它允许以这种方式进行POST调用:

import requests
r = requests.post("http://web-address.com", {'parameter': 'value'})
r.text