我正在编写一个Web scraper并使用WWW::Mechanize
模块。我正在执行一个帖子,并将无效值传递给帖子的参数。我提取的是该页面中的所有链接,并将它们打印到文本文件中。我会说没关系,因为文本文件是空的,这意味着找不到页面,但我的问题是success()
方法没问题,而status()
方法是{{ 1}}。
我知道这听起来有点奇怪但是我试图找到一个页面未找到状态或者知道页面无效的东西。
有没有人知道发生了什么?
答案 0 :(得分:2)
您的代码是否有效取决于目标站点如何响应丢失页面的请求。如果服务器通过提供错误页面来处理它,即使你请求的页面不在那里,你也会得到一个成功的(200)响应。
More information from Google on "soft 404s" - 丢失页面返回有效页面。
以下是配置Apache以返回200响应而非404:
的示例