最近我管理的GSA达到了被编入索引的URL的限制,而且我看到实际内容的URL总数非常低,而不是页面列表的数量(大多数是按日期而不是内容但只有显示用户导航的结果。)
我已经添加了机器人元标记" noindex"属性和许多网址显示为"排除":
因此,我认为这些文档不会计入许可总数,但如果没有该数量,我的抓取网址可能无法达到500K的限制。
我的另一个猜测是,即使有时文档在几个集合中重复,拥有多个集合也会使文档计入总数。
还有其他人遇到类似的问题吗?
答案 0 :(得分:0)
您是否收到超出索引的警告? GSA将对您的许可证上的URL进行爬网限制,但您应该能够在许可证中拥有大约1M个文档(在CRAWLED / ERRORS / EXCLUDED之间)。 “"已抓取的网址"。
中只有500K