假设我有一个新的网站版本:
http://www.mywebsite.com
我希望将较旧的网站保留在子目录中并单独处理:
http://www.mywebsite.com/old/
我的新网站在主页上有一个指向旧的网站,但反之亦然。
1)我应该创建2个站点地图吗?一个用于新,一个用于旧?
2)当我的网站被抓取时,我该如何限制抓取工具的路径?换句话说,由于新网站包含指向旧网站的链接,因此抓取工具将到达旧网站。如果我在robots.txt中执行以下操作:
User-agent: *
Disallow: /old/
我担心它不会抓取旧网站(使用第二个站点地图),因为它已被阻止。这是对的吗?
答案 0 :(得分:1)
1)您可以将所有网址都包含在一个文件中,也可以创建单独的文件。人们可以将站点地图理解为“每(网站)站点”,例如见http://www.sitemaps.org/:
最简单的形式是,Sitemap是一个XML文件,其中列出了网站的网址以及有关每个网址的其他元数据
由于您现在有两个站点,因此您可以创建两个站点地图。但同样,我不认为这是严格定义的。
2)好吧,如果您阻止robots.txt中的网址,那么这些网址就不会通过机器人来访问。这并不意味着搜索引擎永远不会将这些 URL 编入索引,但页面(=内容)不会。