如何使用一个类来刮两个网站

时间:2016-02-05 11:58:58

标签: python web-scraping pyqt pyqt4 python-3.5

我试图在PyQt中呈现用java编写的网站。第一个站点没有问题地渲染并且抓取了我需要的信息,但是当我想使用同一个类来渲染另一个站点并检索新数据时,它告诉我在Render类中定义的帧不是已定义(为第一个网站定义,在检索我需要的数据时工作得非常好)。 那么,为什么会这样呢?我错过了Python的基本内容吗?我的理解是,当第一个站点被渲染时,该对象将被垃圾收集,第二个可以被渲染。以下是推荐代码:

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  
from lxml import html 

class Render(QWebPage):  
    def __init__(self, url):  
        self.app = QApplication(sys.argv)  
        QWebPage.__init__(self)  
        self.loadFinished.connect(self._loadFinished)  
        self.mainFrame().load(QUrl(url))  
        self.app.exec_()


    def _loadFinished(self, result):  
        self.frame = self.mainFrame()  
        self.app.quit()

urls = ['http://pycoders.com/archive/', 'http://us4.campaign-archive2.com/home/?u=9735795484d2e4c204da82a29&id=64134e0a27']

for url in urls:
    r = Render(url)
    result = r.frame.toHtml()
    #This step is important.Converting QString to Ascii for lxml to process
    #QString should be converted to string before processed by lxml
    formatted_result = str(result)
    #Next build lxml tree from formatted_result
    tree = html.fromstring(formatted_result)
    #Now using correct Xpath we are fetching URL of archives
    archive_links = tree.xpath('//div[@class="campaign"]/a/@href')[1:5]
    print (archive_links)

我收到的错误消息:

  File "javaweb2.py", line 24, in <module>
    result = r.frame.toHtml()
AttributeError: 'Render' object has no attribute 'frame'

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

这是因为self.frame仅在调用self._loadFinished()时定义,仅在QWebPage实例发出信号时才会发生。因此,除非我在您发布的代码中看到几个可疑的做法,否则以下内容将解决问题(不是****的行很重要):

class Render(QWebPage):  
    def __init__(self, url):  
        self.app = QApplication(sys.argv)  
        self.frame = None  # *****
        QWebPage.__init__(self)  
        self.loadFinished.connect(self._loadFinished)  
        self.mainFrame().load(QUrl(url))  
        self.app.exec_()

    def _loadFinished(self, result):  
        self.frame = self.mainFrame()  
        self.app.quit()

urls = ['http://pycoders.com/archive/', 'http://us4.campaign-archive2.com/home/?u=9735795484d2e4c204da82a29&id=64134e0a27']

for url in urls:
    r = Render(url)
    # wait till frame arrives: 
    while r.frame is None:
        # pass  # option 1: works, but will cause 100% cpu 
        time.sleep(0.1)  # option 2: much better

    result = r.frame.toHtml()
    ...

所以“pass”会起作用但会消耗100%的cpu,因为循环每秒执行一百万次。使用定时器只检查每1/10秒,并且CPU消耗非常低。

当然,最好的解决方案是将一个依赖于框架的逻辑(即当前位于r=Render(url)下面的URL循环中的代码)放在一个函数中,该函数将在{{发出1}}信号。由于无法控制信号的顺序,最好的选择是将该代码移动到loadFinished方法中。