Question

我正在使用Selenium进行网页抓取，我希望在Selenium模拟点击虚假链接后获得一个由JavaScript编写的元素（例如链接）。

我尝试了get_html_source（），但它不包含JavaScript编写的内容。

我编写的代码：

    def test_comment_url_fetch(self):
        sel = self.selenium 
        sel.open("/rmrb")
        url = sel.get_location()
        #print url
        if url.startswith('http://login'):
            sel.open("/rmrb")
        i = 1
        while True:
            try:
                if i == 1:
                    sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]") 
                    print "click"
                else:
                    XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
                    sel.click(XPath)
                    print "click"
            except Exception, e:
                print e
                break
            i += 1
        html = sel.get_html_source()
        html_file = open("tmp\\foo.html", 'w')
        html_file.write(html.encode('utf-8'))
        html_file.close()

我使用while循环来点击一系列虚假链接，触发js-actions以显示额外内容，而这些内容就是我想要的。但是sel.get_html_source（）没有给出我想要的东西。

有人可以帮忙吗？非常感谢。

Answer 1

由于我通常对获取的节点进行后处理，因此我使用execute_script直接在浏览器中运行JavaScript。例如，获取所有a-tags：

js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)

修改：execute_script和get_eval是等效的，只有get_eval执行隐式退货，在execute_script中必须明确说明。

Answer 2

你不能只是在你的selenium环境中调用浏览器对象吗？例如：

self.browser.find_elements_by_tag_name("div")

应该返回一个div数组。您还可以按类，ID等查找。

修改以下是创建“浏览器”对象的代码。

from selenium import webdriver #The browser object
self.browser = webdriver.Firefox() #I Use firefox, but can do chrome, IE, and safari i believe

然后，您应该可以使用find_elements_by_tag_name进行上述操作。

Answer 3

您需要使用可以执行Javascript的浏览器引擎，例如PhantomJS。 Javascript的更改仅对可以执行Javascript并为要触发的事件提供DOM /运行时的客户端可见。

与Executing Javascript from Python

如何通过Selenium / Python获取JavaScript编写的html内容

3 个答案: