我的网站是www.abc.com,并且有一个特定的网址格式,其中包含安全和非安全内容。例如,www.abc.com / foo / xxx根据内容提供安全/开放内容。
如何告诉GSA对安全内容使用安全抓取?我知道这很简单,具体的网址始终是安全内容。我已经阅读了谷歌的支持网站here,但GSA如何知道某些网址是安全内容?我无法列出GSA管理控制台中的所有网址,因为有超过10K这样的唯一网址。
答案 0 :(得分:1)
我知道您网站上的某些网址是安全的,其余的是公共网址。 并且您想告诉GSA仅对受保护的URL使用受控访问内容爬网。 如果是这种情况,则必须将所有受保护的内容移动到某些常见模式Ex:www.abc.com/secured/xxx,并使用受控访问内容爬网来抓取该模式。 如果这不是一个可行的解决方案,那么在网页上添加一些元标记 (对于打开的页面 - 添加查看者=公共,对于安全页面 - 添加查看者=安全)并使用受控访问内容爬网爬行整个站点,并使用GSA配置公开所有URL。 要提供结果,请在您的应用程序中进行身份验证,并在viewers requiredfields参数中使用适当的值查询GSA。
答案 1 :(得分:0)
你问题的答案(而不是你的问题)是:
GSA将根据Web服务器的http响应确定内容是否安全。如果您的内容以401或301/302响应,那么GSA将认为此内容是安全的。
公共内容确定内容是否以200响应。