Google为什么不索引我的“ robots.txt”?

时间:2018-10-05 16:45:26

标签: robots.txt googlebot sitemap.xml

我正试图允许Googlebot网络爬虫将我的网站编入索引。我的robots.txt最初看起来像这样:

User-agent: * 
Disallow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

我将其更改为:

User-agent: * 
Allow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml 

只有Google仍未为我的链接编制索引。

2 个答案:

答案 0 :(得分:0)

  

我正试图允许Googlebot网络爬虫将我的网站编入索引。

  1. 机器人规则与索引编制无关!它们仅与爬网能力有关。即使禁止抓取页面,也可以将其编入索引!

  2. Yandex仅支持
  3. host指令。

  4. 如果您希望所有漫游器都能抓取您的网站,则应将robots.txt文件放在https://www.sitename.com/robots.txt下,状态代码为200,并包含:

    User-agent: * Disallow: Sitemap: https://www.sitename.com/sitemap.xml

答案 1 :(得分:-1)

来自docs

Robots.txt语法可以被视为robots.txt文件的“语言”。在漫游器文件中可能会遇到五个常用术语。其中包括:

用户代理:您要向其提供爬网说明的特定网络爬网程序(通常是搜索引擎)。可以在此处找到大多数用户代理的列表。

不允许:用于告诉用户代理不要对特定URL进行爬网的命令。每个网址只允许一个“ Disallow:”行。

允许(仅适用于Googlebot):告诉Googlebot即使不允许其父页面或子文件夹访问页面或子文件夹的命令,也可以访问。

抓取延迟:抓取器在加载和抓取页面内容之前应等待几秒钟。请注意,Googlebot不认可此命令,但是可以在Google Search Console中设置抓取速度。

站点地图:用于调出与此URL关联的任何XML站点地图的位置。请注意,只有Google,Ask,Bing和Yahoo支持此命令。

尝试在您的robots.txt伪指令中具体提及Googlebot

User-agent: Googlebot 
Allow: /

允许所有网络爬虫访问所有内容

User-agent: * 
Disallow: