配置GSA以对内容进行爬网

时间:2014-11-07 10:28:30

标签: search google-search-appliance

我的网站是www.abc.com,并且有一个特定的网址格式,其中包含安全和非安全内容。例如,www.abc.com / foo / xxx根据内容提供安全/开放内容。

如何告诉GSA对安全内容使用安全抓取?我知道这很简单,具体的网址始终是安全内容。我已经阅读了谷歌的支持网站here,但GSA如何知道某些网址是安全内容?我无法列出GSA管理控制台中的所有网址,因为有超过10K这样的唯一网址。

2 个答案:

答案 0 :(得分:1)

我知道您网站上的某些网址是安全的,其余的是公共网址。 并且您想告诉GSA仅对受保护的URL使用受控访问内容爬网。 如果是这种情况,则必须将所有受保护的内容移动到某些常见模式Ex:www.abc.com/secured/xxx,并使用受控访问内容爬网来抓取该模式。 如果这不是一个可行的解决方案,那么在网页上添加一些元标记 (对于打开的页面 - 添加查看者=公共,对于安全页面 - 添加查看者=安全)并使用受控访问内容爬网爬行整个站点,并使用GSA配置公开所有URL。 要提供结果,请在您的应用程序中进行身份验证,并在viewers requiredfields参数中使用适当的值查询GSA。

答案 1 :(得分:0)

你问题的答案(而不是你的问题)是:

GSA将根据Web服务器的http响应确定内容是否安全。如果您的内容以401或301/302响应,那么GSA将认为此内容是安全的。

公共内容确定内容是否以200响应。