我正试图允许Googlebot网络爬虫将我的网站编入索引。我的robots.txt
最初看起来像这样:
User-agent: *
Disallow: /
Host: www.sitename.com
Sitemap: https://www.sitename.com/sitemap.xml
我将其更改为:
User-agent: *
Allow: /
Host: www.sitename.com
Sitemap: https://www.sitename.com/sitemap.xml
只有Google仍未为我的链接编制索引。
答案 0 :(得分:0)
我正试图允许Googlebot网络爬虫将我的网站编入索引。
机器人规则与索引编制无关!它们仅与爬网能力有关。即使禁止抓取页面,也可以将其编入索引!
host
指令。
如果您希望所有漫游器都能抓取您的网站,则应将robots.txt文件放在https://www.sitename.com/robots.txt下,状态代码为200,并包含:
User-agent: *
Disallow:
Sitemap: https://www.sitename.com/sitemap.xml
答案 1 :(得分:-1)
来自docs:
Robots.txt语法可以被视为robots.txt文件的“语言”。在漫游器文件中可能会遇到五个常用术语。其中包括:
用户代理:您要向其提供爬网说明的特定网络爬网程序(通常是搜索引擎)。可以在此处找到大多数用户代理的列表。
不允许:用于告诉用户代理不要对特定URL进行爬网的命令。每个网址只允许一个“ Disallow:”行。
允许(仅适用于Googlebot):告诉Googlebot即使不允许其父页面或子文件夹访问页面或子文件夹的命令,也可以访问。
抓取延迟:抓取器在加载和抓取页面内容之前应等待几秒钟。请注意,Googlebot不认可此命令,但是可以在Google Search Console中设置抓取速度。
站点地图:用于调出与此URL关联的任何XML站点地图的位置。请注意,只有Google,Ask,Bing和Yahoo支持此命令。
尝试在您的robots.txt伪指令中具体提及Googlebot :
User-agent: Googlebot
Allow: /
或允许所有网络爬虫访问所有内容
User-agent: *
Disallow: