关于抓取Google Search Appliance的网址

时间:2014-06-05 12:16:57

标签: regex search search-engine google-search-appliance

我们需要抓取一组特定的网址。

比如我们有网站abc.com。我们需要抓取abc.com/test/needed - 所有符合此模式的网址都在"需要"夹。但我们并不想抓取abc.com/test /.

下的其他网址

我想这将使用RegEx完成。任何人都可以帮我关注RegEx吗?

3 个答案:

答案 0 :(得分:0)

根据您在评论中所说的内容,使用与/xyz形式的内容匹配的模式,而不是/xyz/imp形式的内容:

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}

答案 1 :(得分:0)

可以添加到GSA的模式可以是:

abc.com/test/needed

包含:abc.com/test/needed

要考虑的是GSA如何获得这些文件。如果它不能蜘蛛到文件夹,它就不会找到文件。

答案 2 :(得分:0)

在GSA中,您可以制作3种规格。

  1. 启动抓取网址 - 这些告诉GSA从哪里开始寻找链接。
  2. 仅跟踪和抓取网址格式 - 这些格式告诉GSA需要跟踪和索引以"开始抓取网址"开头的网址中的哪些网址。
  3. 不要抓取网址 - 这些是与上述2种模式匹配的网址格式的规范,但不应对其进行抓取。
  4. 从问题本身中指定的内容来看,我认为您需要做的就是,进入"开始抓取" url as:" abc.com /"然后加入"跟随和抓取"规范为:" abc.com/test/needed /" ;,假设您在网站上不需要其他路径/文件夹。