我目前正在使用不允许索引我的WP管理员的robots.txt文件。目前我的机器人文件如下所示:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
我希望搜索引擎也能停止索引我的图像。这些是我的私人投资组合图片,我不希望它们出现在任何在线搜索中。
所以我将添加Google Image bot和Bing bot的限制。我的Robots.txt文件现在看起来像这样:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot-Image
Disallow: /
User-agent: msnbot-media
Disallow: /
这是否写得正确? 还有其他建议吗?我应该包括其他任何图像机器人吗?
答案 0 :(得分:2)
您当前的布局是正确的,但是有一种全方位的阻止机器人抓取图像的方式。
看到您正在使用WordPress,我将假设您使用的是普通文件上传结构,这意味着您还可以将以下内容添加到robots.txt中:
User-agent: *
Disallow: /wp-content/uploads/
我建议您将此功能与目前使用的功能结合使用,因为它只会阻止位于uploads文件夹中的图像。这不适用于直接在主题文件或插件内容等中的图像。
您的完整列表如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot-Image
Disallow: /
User-agent: msnbot-media
Disallow: /
这条路线起初可能看起来很原始,但要记住那里有hundreds of crawlers。为每个人制定规则可能会导致相当严重的麻烦。
通过屏蔽99.9%的图片所在的位置,您需要列出可以找到的每个抓取工具,并确保立即将任何新抓取工具添加到如果它们符合您的robots.txt文件,请列出。
此时,还值得一提的是,有相当多的网页抓取工具完全忽略了您的机器人文件。