我遇到一个问题(使用许多IP地址),使用以下方式浏览我的商店:
example.com/catalog/category/view/id/$i
我打开了网址重写,因此通常的人工浏览看起来很“友好”:
example.com/category_name.html
因此,问题是 - 如何防止使用“旧”(未重写)网址浏览商店,只允许“友好”网址?
这非常重要,因为它使用了数百个线程,导致商店工作非常慢。
答案 0 :(得分:1)
由于有许多随机IP地址,显然您无法阻止来自单个或一小组地址的访问。您可能需要实现一些以某种方式唯一标识此爬虫的日志记录(可能是通过浏览器代理,或者可能是巧妙地使用Modernizr javascript库)。
一旦您能够区分此抓取工具的某些唯一标识符,您就可以使用.htaccess
中的规则(如果它是用户代理商的东西)来重定向或以其他方式阻止它们消耗你的服务器的魅力。
此SO问题提供了有关用户代理规则的详细信息。
Block all bots/crawlers/spiders for a special directory with htaccess
答案 1 :(得分:1)
如果蜘蛛爬行给定模式的所有网址:
example.com/catalog/category/view/id/$i
然后你可以在.htaccess
中删除这些网址。重写是从category.html -> /catalog/category/view/id/$i
内部进行的,因此,您只能阻止机器人。
答案 2 :(得分:0)
一旦有重写......他们就在那里。它们存储在Mage数据库中有很多原因。一个是抓取您的网站的爬虫。另一个是可能将旧页面加入书签的用户。人们已经提出了许多方法来完成并清理你的重定向(Google) ......但就目前而言,在Magento,一旦他们在那里,他们就不容易使用Magento管理。
我可能会建议您生成新的site map
并将其提交给影响您网站的抓取工具。这个爬虫不仅会抓取它不需要的大量页面,而且还会看到重复的内容(糟糕的ju ju)。