Python - 检查网站是否被谷歌列入黑名单

时间:2017-07-07 08:18:25

标签: python web-scraping

是否可以使用python检查网站是否被谷歌列入黑名单?我试过了:

    try:
            opener = requests.get(strona['url'], headers={
                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) \
                AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 \
                Safari/537.36'
            })
            tekst_html = opener.text

并在"中搜索tekst_html;您正在进入误导性页面"或类似的东西。我意识到html源代码中没有这样的短语。我认为是外部脚本显示警告。

这是列入黑名单的网站示例:http://www.forum.dietaproteinowa.eu/

1 个答案:

答案 0 :(得分:1)

用户代理不控制浏览器显示的内容,它控制内容网站发送的内容。网站被Chrome阻止,因此Chrome引擎必须进行阻止。如果它是由网站服务器控制的,那将是非常荒谬的:“嘿,看起来这家伙似乎正在使用chrome,但谷歌说我们被列入黑名单,所以我们最好不要向他发送内容,并发送特定的列入网页google给了我们”

要检查此类网站是否已列入黑名单,您基本上需要实际运行Chrome。值得庆幸的是,python可以使用带有chrome驱动程序的selenium模块为您完成。

使用selenium,你需要运行chrome驱动程序,然后请求驱动程序打开给定的站点,加载后你需要获取selenium收到的源代码并检查<html>标签是否有blacklisted类。

如果您不想弹出浏览器,可以使用一些特定的硒技巧。例如,在linux上,您可以在python中创建虚拟显示,并在该虚拟显示内部运行chrome驱动程序。