我正在使用python中的urllib2和BeautifulSoup编写一个web scraper,我正在寻找一种方法来指示python单击页面上的一个按钮来读取HTML源代码。
我的脚本的以下片段从csv文件中读取URL并且用于从指定的网页中抓取数据,但中间步骤是单击"提交"网页上存在的按钮,该按钮是从csv提供的URL中读取的。
for line in triplines:
FromTo = line.split(",")
From = FromTo[0].strip()
print(From)
To = FromTo[1].strip()
print(To)
url = KCString1 + From + KCString2 + To + KCString3
print(url)
page = urllib2.urlopen(url)
page_source = page.read()
soup = BeautifulSoup(page_source)
print(soup.prettify())
是否有办法利用urllib2功能,以便说出"按照此按钮获得的网址"?我想我可能需要找到JavaScript源来首先识别按钮的标识符。
答案 0 :(得分:3)
按钮通常没有附加网址。他们通常需要javascript交互,这需要模拟。如果要单击按钮,则应使用Ghost之类的浏览器模拟器,而不是像Beautifulsoup这样的解析器