我写了一个简单的python脚本只是为了查看网站的页面来源。网站是https://kissanime.to
。我正在使用以下一小段代码。
import urllib2
url = 'https://kissanime.to'
link = urllib2.urlopen(url)
print link
但是上述过程不起作用,并显示如下错误消息
HTTP Error 403 : Forbidden
我尝试在社区中找到解决上述问题的方法并提出了这个问题: -
import urllib2
url = 'https://kissanime.to'
link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
link2 = urllib2.urlopen(link1)
然而,上述方法也失败了,现在我收到错误: -
HTTP Error 503 : Service Temporarily Unavailable
这个问题有什么办法吗?我是python的这个网络爬行功能的新手。 请帮忙。
答案 0 :(得分:1)
检查了网站,它会让你在显示任何主要内容之前等待5秒。
我使用requests
模块来获取“等待5秒钟”的初始页面:
import requests
r = requests.get("https://kissanime.to/")
# Throws an Insecure Platform warning on certain versions of python
print r.content
但是,根据您想要抓到的内容,您可以先了解一下该网站是如何构建的,并制定一个策略来抓取您想要的内容。
我必须说看过网站上的网络电话,它非常顽固,因为每个电话都有大量的参数和嵌入其中的cookie。
您有什么具体想要从这个网站上删除?
此外,当服务器显示“等待5秒......”的初始页面时,服务器返回503