通过其他网址

时间:2015-07-23 18:45:52

标签: google-search-appliance

有没有办法自定义Google Search Appliance如何索引HTML文档?基本上,假设我有关键字到URL的映射,我希望索引器能够处理它在HTML文档中找到的关键字的出现,就好像它们是指向各自URL的链接一样。

例如,如果关键字/ URL映射是

ABC    -> http://alpha.intra.net/beta/charlie
FOOBAR -> http://barbar.intra.net/foo
XYZ    -> http://xxx.intra.net/yotta/zuul

文件是

<html><body>
  Toby was talking about partnering with the folks over in ABC
  on the <a href="http://proj.intra.net/tango">tango</a> project.
  But I think the people over in FOOBAR would be a better fit.
</body></html>

索引器会退出:

http://alpha.intra.net/beta/charlie
http://proj.intra.net/tango
http://barbar.intra.net/foo

或者,在编制索引之前是否有一个阶段可以预处理HTML以插入此类链接?

1 个答案:

答案 0 :(得分:1)

你要求的是不可能的。你不能告诉GSA,&#34;如果是关键字X,索引URL对应于X - &gt; URL&#34;。

但是,没有什么可以阻止您在GSA和您索引的网站之间建立代理,以便您在推送到GSA的HTML文档中进行此转换。那么您需要做的就是在抓取此URL模式时将GSA配置为使用代理服务器。