如何抓取/索引单个页面上的链接:Google Search Appliance

时间:2015-04-29 05:05:40

标签: google-search-appliance

对于GSA来说是新手,并且没有对系统的完全管理员访问权限,因此必须将请求转发到ICT服务,以便对我们的抓取和收集进行更改。

我希望有人可以帮助解决这个问题:

我有一个网页,其中包含大约180个文档的链接列表(大多数文档存储在相同的子目录/ docs /中,其中包含大约2400个文档)。其余的分散在整个网站的许多其他子目录中,即/ finance /,/ hr / etc

目前发生的一切都是我要么将单个网页编入索引而没有180个链接。或者我在/ docs /子目录中获得了1页以及所有2400个文档。

我希望能够抓取/索引此页面和180个链接并创建单独的集合

有一种简单的方法吗?

此致 亨利

3 个答案:

答案 0 :(得分:1)

另一种可能的解决方案是使用robots.txt文件禁止抓取您不想要的其他页面。如果你必须枚举所有这些,那将是很多工作。

您最好的选择是查看是否有一些常用的网址格式可用于仅指定您想要的180个网页。例如,您确实想要所有PDF的页面,以及您不想要的其他文件是否都是其他类型的?如果你能找到你想要的所有页面都很常见的东西,那么对于其他页面来说,你可以使用它来制定一个模式(可能使用正则表达式)来做你想要的。

答案 1 :(得分:0)

  1. 而不是在启动网址下配置网址格式并遵循模式, 配置完整的URL。获取180个网址+ 1个单一网页网址,并将所有181个网址放在启动网址下并按照模式。通过配置完整网址,我们可以避免GSA抓取应用程序中的其他网址,因为我们没有保留任何常见的网址模式网址。
  2. 创建一个新集合并放置所有180个文档网址+单个网页 该集合中“包含匹配以下模式的内容”下的网址(或通用模式匹配181网址)。
  3. 我假设您不想在GSA上索引其他2400个文档。 希望它有所帮助。

    此致

    莫汉。

答案 2 :(得分:0)

最好使用meta和url Feed。

它允许您控制GSA是否跟随您的180页中的链接(如果您已将其输入)或者如果您只是提供该列表页面的索引。您可以通过指定noindex或nofollow来完成此操作。

您仍然需要正确设置跟随和抓取模式和集合,但这是控制索引内容的最简单方法。

您也不一定需要为此编写代码,您可以使用curl并手工制作xml。

文档非常好,易于理解。 Feeds Protocol Developers Guide