无法查看网站的页面来源

时间:2016-06-28 14:17:02

标签: python urllib2 http-error

我写了一个简单的python脚本只是为了查看网站的页面来源。网站是https://kissanime.to。我正在使用以下一小段代码。

    import urllib2
    url = 'https://kissanime.to'
    link = urllib2.urlopen(url)
    print link

但是上述过程不起作用,并显示如下错误消息

HTTP Error 403 : Forbidden

我尝试在社区中找到解决上述问题的方法并提出了这个问题: -

     import urllib2
     url = 'https://kissanime.to'
     link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
     link2 = urllib2.urlopen(link1)

然而,上述方法也失败了,现在我收到错误: -

HTTP Error 503 : Service Temporarily Unavailable

这个问题有什么办法吗?我是python的这个网络爬行功能的新手。 请帮忙。

1 个答案:

答案 0 :(得分:1)

检查了网站,它会让你在显示任何主要内容之前等待5秒。

我使用requests模块来获取“等待5秒钟”的初始页面:

import requests

r = requests.get("https://kissanime.to/")

# Throws an Insecure Platform warning on certain versions of python

print r.content

但是,根据您想要抓到的内容,您可以先了解一下该网站是如何构建的,并制定一个策略来抓取您想要的内容。

我必须说看过网站上的网络电话,它非常顽固,因为每个电话都有大量的参数和嵌入其中的cookie。

您有什么具体想要从这个网站上删除?

此外,当服务器显示“等待5秒......”的初始页面时,服务器返回503