指示Python使用urllib2单击按钮

时间:2014-07-02 19:14:24

标签: javascript python csv beautifulsoup urllib2

我正在使用python中的urllib2和BeautifulSoup编写一个web scraper,我正在寻找一种方法来指示python单击页面上的一个按钮来读取HTML源代码。

我的脚本的以下片段从csv文件中读取URL并且用于从指定的网页中抓取数据,但中间步骤是单击"提交"网页上存在的按钮,该按钮是从csv提供的URL中读取的。

for line in triplines:
    FromTo = line.split(",")
    From = FromTo[0].strip()
    print(From)
    To = FromTo[1].strip()
    print(To)
    url = KCString1 + From + KCString2 + To + KCString3
    print(url)
    page = urllib2.urlopen(url)
    page_source = page.read()
    soup = BeautifulSoup(page_source)
    print(soup.prettify())

是否有办法利用urllib2功能,以便说出"按照按钮获得的网址"?我想我可能需要找到JavaScript源来首先识别按钮的标识符。

1 个答案:

答案 0 :(得分:3)

按钮通常没有附加网址。他们通常需要javascript交互,这需要模拟。如果要单击按钮,则应使用Ghost之类的浏览器模拟器,而不是像Beautifulsoup这样的解析器