Question

我正在使用python中的urllib2和BeautifulSoup编写一个web scraper，我正在寻找一种方法来指示python单击页面上的一个按钮来读取HTML源代码。

我的脚本的以下片段从csv文件中读取URL并且用于从指定的网页中抓取数据，但中间步骤是单击＆＃34;提交＆＃34;网页上存在的按钮，该按钮是从csv提供的URL中读取的。

for line in triplines:
    FromTo = line.split(",")
    From = FromTo[0].strip()
    print(From)
    To = FromTo[1].strip()
    print(To)
    url = KCString1 + From + KCString2 + To + KCString3
    print(url)
    page = urllib2.urlopen(url)
    page_source = page.read()
    soup = BeautifulSoup(page_source)
    print(soup.prettify())

是否有办法利用urllib2功能，以便说出＆＃34;按照此按钮获得的网址＆＃34;？我想我可能需要找到JavaScript源来首先识别按钮的标识符。

Answer 1

按钮通常没有附加网址。他们通常需要javascript交互，这需要模拟。如果要单击按钮，则应使用Ghost之类的浏览器模拟器，而不是像Beautifulsoup这样的解析器

指示Python使用urllib2单击按钮

1 个答案: