刮刮谷歌财经(BeautifulSoup)

时间:2017-07-22 21:06:39

标签: python python-3.x web web-scraping beautifulsoup

我正在尝试抓取Google财经,并获取“相关股票”表,其中包含基于Chrome中网页检查器的ID“cc-table”和类“gf-table”。 (示例链接:https://www.google.com/finance?q=tsla

但是当我运行.find(“table”)或.findAll(“table”)时,此表不会出现。我可以在Python的HTML内容中找到带有表格内容的JSON外观对象,但不知道如何获取它。有什么想法吗?

2 个答案:

答案 0 :(得分:6)

该页面使用JavaScript呈现。有几种方法可以渲染和刮擦它。

我可以用Selenium刮掉它。 首先安装Selenium:

this.onyomi.romaji = oR_;
this.onyomi.katakana = oK_;

然后获得一个驱动程序https://sites.google.com/a/chromium.org/chromedriver/downloads

sudo pip3 install selenium

另外PyQt5

import bs4 as bs
from selenium import webdriver  
browser = webdriver.Chrome()
url = ("https://www.google.com/finance?q=tsla")
browser.get(url)
html_source = browser.page_source
browser.quit()
soup = bs.BeautifulSoup(html_source, "lxml")
for el in soup.find_all("table", {"id": "cc-table"}):
    print(el.get_text())

另外Dryscrape

from PyQt5.QtGui import *  
from PyQt5.QtCore import *  
from PyQt5.QtWebKit import *  
from PyQt5.QtWebKitWidgets import QWebPage
from PyQt5.QtWidgets import QApplication
import bs4 as bs
import sys

class Render(QWebPage):  
    def __init__(self, url):  
        self.app = QApplication(sys.argv)  
        QWebPage.__init__(self)  
        self.loadFinished.connect(self._loadFinished)  
        self.mainFrame().load(QUrl(url))  
        self.app.exec_()  

    def _loadFinished(self, result):  
        self.frame = self.mainFrame()  
        self.app.quit()  

url = "https://www.google.com/finance?q=tsla"
r = Render(url)  
result = r.frame.toHtml()
soup = bs.BeautifulSoup(result,'lxml')
for el in soup.find_all("table", {"id": "cc-table"}):
    print(el.get_text())

所有输出:

import bs4 as bs
import dryscrape

url = "https://www.google.com/finance?q=tsla"
session = dryscrape.Session()
session.visit(url)
dsire_get = session.body()
soup = bs.BeautifulSoup(dsire_get,'lxml')
for el in soup.find_all("table", {"id": "cc-table"}):
    print(el.get_text())

修改

QtWebKit在Qt 5.5上游被弃用,在5.6中被删除。

您可以切换到PyQt5.QtWebEngineWidgets

答案 1 :(得分:1)

大多数网站所有者不喜欢使用抓取工具,因为他们会将数据视为公司的价值,耗尽了大量的服务器时间和带宽,并且没有任何回报。像谷歌这样的大公司可能会让整个团队采用一系列方法来检测和阻止机器人试图抓取他们的数据。

有几种解决方法:

  • 从另一个不太安全的网站上搜集。
  • 查看Google或其他公司是否有供公众使用的API。
  • 使用更高级的抓取工具,例如Selenium(可能仍被谷歌阻止)。