我正在尝试使用机械化来从这个网站获取纽约地铁北部铁路的价格:http://as0.mta.info/mnr/fares/choosestation.cfm
问题在于,当您选择第一个选项时,该网站使用javascript填充您的可能目的地列表。我已经在python中编写了相同的代码,但我似乎无法将其全部工作。这是我到目前为止所做的:
import mechanize
import cookielib
from bs4 import BeautifulSoup
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open("http://as0.mta.info/mnr/fares/choosestation.cfm")
br.select_form(name="form1")
br.form.set_all_readonly(False)
origin_control = br.form.find_control("orig_stat", type="select")
origin_control_list = origin_control.items
origin_control.value = [origin_control.items[0].name]
destination_control_list = reFillList(0, origin_control_list)
destination_control = br.form.find_control("dest_stat", type="select")
destination_control.items = destination_control_list
destination_control.value = [destination_control.items[0].name]
response = br.submit()
response_text = response.read()
print response_text
我知道我没有给你reFillList()方法的代码,因为它很长,但假设它正确创建了一个mechanize.option对象列表。 Python并没有抱怨任何关于我的事情,但是在提交时我得到了这个警告的html:
“两条线路之间的旅行票价信息无法在线获取。请通过511联系我们的客户信息中心,并要求与代表联系以获取更多信息。”
我在这里遗漏了什么吗?谢谢你的帮助!
答案 0 :(得分:0)
如果不尝试理解该函数中的疯狂逻辑,就无法真正做到。我建议使用js解决方案或像selenium这样的完整浏览器。