下午好,我希望你能帮助我,我有一个问题:
我有一台带有godaddy(delux-sharing)的服务器,在这台服务器上我有以下内容:
/
- /邮件
- 在/ etc
- /的public_html
---- / WEB1
---- / WEB2
------ / index.php文件
------ / CSS
------ / IMG
------ / JS
---- / WEB3
- / TMP
我正在创建一个robot.txt文件,我希望在web2中没有索引任何内容,对所有内容都不重要(index.html,css,img,js),但是YES想要索引其他页面(web1, web3)我该怎么做到这一点?那个文件夹里的robot.txt文件必须去吗?在/,/ public_html,/ web2?
我可以帮忙处理文件内容:robot.txt?
非常感谢你。
答案 0 :(得分:2)
您将使用两个不同的robots.txt文件。一个进入/ web1,另一个进入/ web2。对于抓取工具,如果/ web1是“somedomain.com”的根,他们将无法抓取文件夹,也无法抓取到/ web2文件夹(或同一级别的任何其他文件夹)。
修改:一些示例robots.txt文件
从整个服务器中排除所有漫游器(其中“server”==“domain”)
User-agent: *
Disallow: /
允许所有机器人完全访问
User-agent: *
Disallow:
(或者只创建一个空的“/robots.txt”文件,或者根本不使用一个文件)
从服务器的一部分中排除所有机器人
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
排除单个机器人
User-agent: BadBot
Disallow: /
允许单个机器人
User-agent: Google
Disallow:
User-agent: *
Disallow: /
因此,/web2
会获得一个robots.txt文件:
User-agent: *
Disallow: /
并且/web1
和/web3
会获得空的robot.txt文件或
User-agent: *
Disallow:
答案 1 :(得分:1)
每个文件夹对应一个域,如果您需要禁用www.web2.com的索引,那么您需要创建robots.txt并在/ web2中找到它
User-agent: *
Disallow: /
将robots.txt添加到web1,web3(适用于其他域)是可选的。 你可以把以下内容放在那里
User-agent: *
Allow: /
完成后,您可以验证您的robots.txt,例如在http://www.frobee.com/robots-txt-check
另外,要阻止搜索引擎进行索引,您可以直接在html中包含以下元标记
<meta name="robots" content="noindex" />