Question

我正试图允许Googlebot网络爬虫将我的网站编入索引。我的robots.txt最初看起来像这样：

User-agent: * 
Disallow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

我将其更改为：

User-agent: * 
Allow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

只有Google仍未为我的链接编制索引。

Answer 1

我正试图允许Googlebot网络爬虫将我的网站编入索引。

仅

host指令。
如果您希望所有漫游器都能抓取您的网站，则应将robots.txt文件放在https://www.sitename.com/robots.txt下，状态代码为200，并包含：

User-agent: * Disallow: Sitemap: https://www.sitename.com/sitemap.xml

Answer 2

来自docs：

Robots.txt语法可以被视为robots.txt文件的“语言”。在漫游器文件中可能会遇到五个常用术语。其中包括：

用户代理：您要向其提供爬网说明的特定网络爬网程序（通常是搜索引擎）。可以在此处找到大多数用户代理的列表。

不允许：用于告诉用户代理不要对特定URL进行爬网的命令。每个网址只允许一个“ Disallow：”行。

允许（仅适用于Googlebot）：告诉Googlebot即使不允许其父页面或子文件夹访问页面或子文件夹的命令，也可以访问。

抓取延迟：抓取器在加载和抓取页面内容之前应等待几秒钟。请注意，Googlebot不认可此命令，但是可以在Google Search Console中设置抓取速度。

站点地图：用于调出与此URL关联的任何XML站点地图的位置。请注意，只有Google，Ask，Bing和Yahoo支持此命令。

尝试在您的robots.txt伪指令中具体提及Googlebot ：

User-agent: Googlebot 
Allow: /

或允许所有网络爬虫访问所有内容

User-agent: * 
Disallow: