Question

我有一个webcrawler，我想将它检索到的html + javascript传递给selenium，这可能吗？为了澄清我不想使用webdriver.get来检索带有selenium的页面，因为我的爬虫更快。

Answer 1

我最终在xvfb服务器上使用PyQt4抓取网页，因为我使用的是不带x11的amazon ec2。下面的代码加载包含JavaScript的网页，并在返回html之前等待7秒，以便所有JavaScript都已完成加载。

import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
from xvfbwrapper import Xvfb

class Render(QWebPage):
    def __init__(self, url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.timerScreen = QTimer()
        self.timerScreen.setInterval(7000)
        self.timerScreen.setSingleShot(True)
        self.timerScreen.timeout.connect(self.getHtml)
        self.loadFinished.connect(self.timerScreen.start)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()
    def getHtml(self):
        self.frame = self.mainFrame()
        self.app.quit()
args = {"nolisten":"tcp"}
vdisplay = Xvfb(**args)
vdisplay.start()
url = 'url here'
r = Render(url)
html = r.frame.toHtml()
print html
f = open("./test.html","wb")
f.write(html.__str__().encode("utf-8"))
f.close()
#stri = str(html).encode("utf-8")
vdisplay.stop()

你如何将html传递给Selenium

1 个答案: