所以我有一个VPS(运行debian)设置来托管我正在研究的一些网站。结构如下:
/var/www/www.website1.com
----------------------------------
/var/www/www.website1.com/htdocs
/var/www/www.website1.com/cgi-bin
/var/www/www.website1.com/logs
/var/www/www.website2.com
----------------------------------
/var/www/www.website2.com/htdocs
/var/www/www.website2.com/cgi-bin
/var/www/www.website2.com/logs
等
我的问题是我在哪里放置我的robots.txt文件。应该是每个站点的htdoc以及站点文件。或者我可以在整个VPS的一个位置拥有一个robots.txt主文件。我试图阻止谷歌抓取日志文件夹和网站结构中不需要搜索引擎访问的任何其他文件夹。目前,我似乎已经过度杀戮,谷歌没有在我的一个网站上索引我的index.html以及其中的描述。
任何帮助都会很棒。
答案 0 :(得分:0)
每个htdocs目录中的每个站点都应该有一个单独的robots.txt文件。给定的robots.txt文件仅适用于从中加载的域,因此每个站点都应该拥有自己的文件。从理论上讲,您可以为您的所有网站设置一个共享robots.txt文件,但这通常是一个坏主意,因为它无法在一个网站上阻止某些内容而不会在所有网站上阻止它其他
答案 1 :(得分:0)
当然,如果您愿意,也可以为您的vps安装robots.txt。如果你这样做,当你想要阻止某个文件夹时,你可以通过给出该文件夹的整个路径来阻止它。但建议您为托管vps中的每个网站使用单独的robots.txt。
并且您要求谷歌不为您的某个网站编制索引,因为您只是检查您阻止机器人的位置,如果不是将该网站添加到Google网站管理员工具并验证,那么Google肯定会将您的网站编入索引。对于所有网站都做同样的事情,即使它是单个vps,也能很好地处理每个网站的所有形式的单独记录。
无论如何,对于未来的服务器要求,请查看我的vps hosting provider,他们以各种方式帮助托管我的网站和应用程序。