有没有办法自定义Google Search Appliance如何索引HTML文档?基本上,假设我有关键字到URL的映射,我希望索引器能够处理它在HTML文档中找到的关键字的出现,就好像它们是指向各自URL的链接一样。
例如,如果关键字/ URL映射是
ABC -> http://alpha.intra.net/beta/charlie
FOOBAR -> http://barbar.intra.net/foo
XYZ -> http://xxx.intra.net/yotta/zuul
文件是
<html><body>
Toby was talking about partnering with the folks over in ABC
on the <a href="http://proj.intra.net/tango">tango</a> project.
But I think the people over in FOOBAR would be a better fit.
</body></html>
索引器会退出:
http://alpha.intra.net/beta/charlie
http://proj.intra.net/tango
http://barbar.intra.net/foo
或者,在编制索引之前是否有一个阶段可以预处理HTML以插入此类链接?
答案 0 :(得分:1)
你要求的是不可能的。你不能告诉GSA,&#34;如果是关键字X,索引URL对应于X - &gt; URL&#34;。
但是,没有什么可以阻止您在GSA和您索引的网站之间建立代理,以便您在推送到GSA的HTML文档中进行此转换。那么您需要做的就是在抓取此URL模式时将GSA配置为使用代理服务器。