解耦CMS,对数据库服务器进行选择性爬网

时间:2016-06-06 18:11:04

标签: regex wordpress .htaccess redirect robots.txt

我们正在运行一个解耦的CMS(使用Wordpress作为我们的数据库),并希望阻止搜索引擎从此服务器抓取我们的帖子。我们在该服务器上发布了帖子模板,因此作者可以预览他们的帖子,Google也找到了这些帖子。

我是否能够检测到爬虫试图访问我的.htaccess文件中的这些页面并重定向到www服务器?是否重定向错误的解决方案? robots.txt可以阻止类别/标题后的通用模式吗?

还需要做三件事:

  1. 我们仍然需要访问db.site.com/wp-admin
  2. 作家仍然需要预览他们的帖子,这意味着他们无法重定向。
  3. db.site.com/wp-content/uploads需要可访问,以便社交网站可以提取 图像。
  4. 以下是帖子的设置方式。基本上我想阻止或重定向来自db.site.com的帖子

    db.site.com/category/post-title
    
    www.site.com/category/post-title
    

0 个答案:

没有答案