使用" noindex"达到GSA限制

时间:2016-11-01 15:54:34

标签: google-search-appliance

最近我管理的GSA达到了被编入索引的URL的限制,而且我看到实际内容的URL总数非常低,而不是页面列表的数量(大多数是按日期而不是内容但只有显示用户导航的结果。)

我已经添加了机器人元标记" noindex"属性和许多网址显示为"排除": enter image description here

因此,我认为这些文档不会计入许可总数,但如果没有该数量,我的抓取网址可能无法达到500K的限制。

我的另一个猜测是,即使有时文档在几个集合中重复,拥有多个集合也会使文档计入总数。

还有其他人遇到类似的问题吗?

1 个答案:

答案 0 :(得分:0)

您是否收到超出索引的警告? GSA将对您的许可证上的URL进行爬网限制,但您应该能够在许可证中拥有大约1M个文档(在CRAWLED / ERRORS / EXCLUDED之间)。 “"已抓取的网址"。

中只有500K