我已阅读有关HOWTO Fetch Internet Resources Using urllib2的文档。但我无法理解如何使用数据参数。例子:
import urllib
import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
'location' : 'Northampton',
'language' : 'Python' }
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
无效:socket.error: [Errno 104] Connection reset by peer
但我从中理解的是,我可以命名一些选项/参数并给它们一个值。但我的问题是:我如何知道网站中的哪些参数?或者我怎么知道他们?
我已经"玩了#34;用:
response =urllib2.urlopen(url)
html=response.read()
print html
要阅读网站,但在尝试了一些我认为可行的值后,我没有成功获取数据。在网站上有一个用于选择文件的按钮,以及一些用于选择输出的单选按钮。 我该怎么做?
我要提取的网页是this one。
答案 0 :(得分:0)
使用urllib2
来驱动表单等会导致沮丧。
https://pypi.python.org/pypi/mechanize是一个很好的起点。
http://www.sciprogblog.com/2012/01/scraping-data-with-python.html这家伙已经提供了大量有用的信息。这不会回答你的问题,但它应该引导你走上正确的道路。
祝你好运。