我正在使用Selenium进行网页抓取,我希望在Selenium模拟点击虚假链接后获得一个由JavaScript编写的元素(例如链接)。
我尝试了get_html_source(),但它不包含JavaScript编写的内容。
我编写的代码:
def test_comment_url_fetch(self):
sel = self.selenium
sel.open("/rmrb")
url = sel.get_location()
#print url
if url.startswith('http://login'):
sel.open("/rmrb")
i = 1
while True:
try:
if i == 1:
sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]")
print "click"
else:
XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
sel.click(XPath)
print "click"
except Exception, e:
print e
break
i += 1
html = sel.get_html_source()
html_file = open("tmp\\foo.html", 'w')
html_file.write(html.encode('utf-8'))
html_file.close()
我使用while循环来点击一系列虚假链接,触发js-actions以显示额外内容,而这些内容就是我想要的。但是sel.get_html_source()没有给出我想要的东西。
有人可以帮忙吗?非常感谢。
答案 0 :(得分:6)
由于我通常对获取的节点进行后处理,因此我使用execute_script
直接在浏览器中运行JavaScript。例如,获取所有a-tags:
js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)
修改:execute_script
和get_eval
是等效的,只有get_eval
执行隐式退货,在execute_script
中必须明确说明。
答案 1 :(得分:1)
你不能只是在你的selenium环境中调用浏览器对象吗?例如:
self.browser.find_elements_by_tag_name("div")
应该返回一个div数组。您还可以按类,ID等查找。
修改以下是创建“浏览器”对象的代码。
from selenium import webdriver #The browser object
self.browser = webdriver.Firefox() #I Use firefox, but can do chrome, IE, and safari i believe
然后,您应该可以使用find_elements_by_tag_name
进行上述操作。
答案 2 :(得分:0)
您需要使用可以执行Javascript的浏览器引擎,例如PhantomJS。 Javascript的更改仅对可以执行Javascript并为要触发的事件提供DOM /运行时的客户端可见。
相关的非常接近