我们需要通过元数据和网址Feed添加特定网址,并阻止GSA关注这些网页上的链接。即使在关注模式规则中指定了URL,也必须忽略此页面上找到的URL。
是否可以为通过 metadata-and-url Feed添加的网址指定抓取深度,或者是否有其他一些方法可以阻止GSA跟踪特定网页上的网址?
答案 0 :(得分:0)
防止这种情况的最简单方法是将以下内容添加到" HEAD" HTML部分。
这将阻止GSA(以及任何其他搜索引擎)关注页面上的任何链接。
答案 1 :(得分:0)
由于您说您无法在内容中添加相关的nofollow元标记,因此您可以使用跟随和抓取模式处理此问题。
Google建议抓取到最大深度,允许Google算法向用户显示最佳搜索结果。您可以使用URL模式来控制索引中包含的子目录级别。
例如,以下网址格式会导致Search Appliance抓取网站www.mysite.com上的前三个子目录:
regexp:www\\.mysite\\.com/[^/]*$
regexp:www\\.mysite\\.com/[^/]*/[^/]*$
regexp:www\\.mysite\\.com/[^/]*/[^/]*/[^/]*$
答案 2 :(得分:0)
您只需使用元数据和网址Feed即可解决此问题。 GSA将抓取它找到的链接,除非您可以指定模式来阻止它们。
我能想到几种可能的解决方案。
您可以使用内容Feed替换元数据和网址Feed。然后,您必须获取要编制索引的内容并将其包含在Feed中。您的获取程序可能会删除所有链接,或者它可以“打破”#34;通过为每个文档指定不正确的URL来实现相对链接。然后,您必须将错误的网址重写回搜索结果显示页面中的正确网址。我之前已经完成了第二种方法,这很容易做到。
您可以使用抓取代理来阻止访问您不希望GSA遵循的任何链接。