如果这不是一个正确的地方,我很抱歉,如果有必要的话,感谢任何帮助将它移到更合适的论坛。我原来的问题将是我在PHP中需要做的改变这种行为的方式...但我不确定它是否真的是问题所以这是一个预先找到的问题我是否甚至需要打扰我要问的编程问题。
我们有一个使用太多带宽的网站。有人告诉我这是由网络爬虫造成的,所以我确实检查了似乎是这种情况。我注意到的一件事是403错误是造成大部分流量的原因。我没有看到这是怎么可能的,因为我期望403错误只是发送一些信息文本,但当我有意识地去一个不存在的URL时,它将我重定向到主页。
所以我假设每次网络爬虫都会发现一条不存在的链接,它正在传输主页上的所有内容......我想知道网络抓取工具是否认为这是一个新的起点,需要它分别在主页上的所有链接分支出来,因为它在网站被拆除之前直接敲打了24小时以上?
编辑:似乎我犯了一个错误,因为halfer指出。我看到'403'并立刻想到了错误的东西。这是 403(禁止访问)的问题,所以也许这意味着有人试图入侵网站?
答案 0 :(得分:2)
不要混淆403和404错误。 403用于禁止,404用于未找到页面。
你的网站根目录下必须有一个.htaccess文件(类似于404错误):
ErrorDocument 403 index.php
将index.php
更改为您添加的静态页面或消息:
ErrorDocument 403 "forbidden
你有站点地图吗?大多数抓取工具都使用它。请阅读this interesting article。
检查哪些抓取工具发出更多请求,并在必要时通过IP阻止它们。