检查fanfiction.net上是否存在url

时间:2011-07-10 23:22:02

标签: python httplib

我试图在www.fanfiction.net上找到一个故事的最后一章编号只是为了好玩。为此我想,因为它有一个固定的url模式,我只会增加章节号,直到它给我一个不存在的URL。

要查找网址是否存在,我在此stackoverflow ques

处尝试了该脚本

但是我发现它没有给出>的响应错误。 400而是给出一条消息以及200响应。什么是识别页面存在与否的最佳方式。

这是一个实际存在的链接exists,这里有一个不存在的链接does not exist

我该怎么办?

编辑1

感谢GregSchoen,我解决了这个问题。我希望它是正确的:))

我检查了resp.getheader的值(“last-modified”,None),它给出了活动链接的一些日期,而没有给出了那些没有的日期。

非常感谢

3 个答案:

答案 0 :(得分:0)

也许使用cURL,读取100个字节,只在数据开头查找“FanFiction.Net Message Type 1”?

答案 1 :(得分:0)

该网站未发出404错误,导致所有这些脚本无法使用。您需要下载整个网页,并检查它是否看起来像404页。

我认为只是跑步:

if (page.find('<style>') == 0):

可以解决问题,因为页面以<style>标记开头(不应该是普通页面)。

答案 2 :(得分:0)

如果对您提供的URL执行HEAD请求,则Last-Modified将在有效页面上设置,但不在无效页面上设置。这将是一种简单的方法来键入有效页面,因为他们的服务器没有使用正确的HTTP代码进行响应。