我是Python的新手并且对编写脚本感兴趣。我目前正在构建一个抓取页面并从标签中提取副本的抓取工具。现在写我只能列出标签;我无法从标签中获取文字,而且我不确定原因。我还使用BeautifulSoup和PyQt4来获取动态数据(这可能需要一个新问题)。
所以基于下面的代码,我应该得到" Images"从Google主页复制,或至少从span标记本身复制。我没有回来
我试过阅读BeautifulSoup的文档,这有点压倒性。我还在读它,但我想我一直在走一个兔子洞。我可以打印所有锚标签或所有div,但针对特定的标签是我挣扎的地方。
import urllib
import re
from bs4 import BeautifulSoup, Comment
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
url = 'http://google.com'
source = urllib.urlopen(url).read()
soup = BeautifulSoup(source, 'html.parser')
js_test = soup.find("a", class_="gb_P")
print js_test