Question

我写了一个简单的python脚本只是为了查看网站的页面来源。网站是https://kissanime.to。我正在使用以下一小段代码。

    import urllib2
    url = 'https://kissanime.to'
    link = urllib2.urlopen(url)
    print link

但是上述过程不起作用，并显示如下错误消息

HTTP Error 403 : Forbidden

我尝试在社区中找到解决上述问题的方法并提出了这个问题： -

     import urllib2
     url = 'https://kissanime.to'
     link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
     link2 = urllib2.urlopen(link1)

然而，上述方法也失败了，现在我收到错误： -

HTTP Error 503 : Service Temporarily Unavailable

这个问题有什么办法吗？我是python的这个网络爬行功能的新手。请帮忙。

Answer 1

检查了网站，它会让你在显示任何主要内容之前等待5秒。

我使用requests模块来获取“等待5秒钟”的初始页面：

import requests

r = requests.get("https://kissanime.to/")

# Throws an Insecure Platform warning on certain versions of python

print r.content

但是，根据您想要抓到的内容，您可以先了解一下该网站是如何构建的，并制定一个策略来抓取您想要的内容。

我必须说看过网站上的网络电话，它非常顽固，因为每个电话都有大量的参数和嵌入其中的cookie。

您有什么具体想要从这个网站上删除？

此外，当服务器显示“等待5秒......”的初始页面时，服务器返回503

无法查看网站的页面来源

1 个答案: