将GSA配置为仅爬网文件的元数据,而不是内容

时间:2012-02-22 16:21:14

标签: google-search google-search-appliance

在GSA(谷歌搜索设备)中,我正在研究如何只抓取元数据(名称,类型,大小,最后修改等)而不是文件内容。虽然我意识到这会影响结果的有用性,但我有自己的要求。

归结为文件的元数据是公共的,但文件的内容受到限制。虽然这看起来像是一个安全修剪的问题,但它稍微多一点,因为我不希望GSA在索引中存储有关文件内容的任何信息。假设GSA服务器不受信任以保留内容。这仅适用于整个数据集的一小部分。

关于如何配置GSA和连接器以仅抓取元数据而不抓取内容的任何想法?

1 个答案:

答案 0 :(得分:1)

不确定您是否可以通过抓取文件(在文件共享或网站上)执行此操作 但是,您可以通过使用包含元数据的列抓取数据库或开发仅创建提供元数据的 Feed 的连接器来执行此操作。

如果你将元数据存储在某个地方,但在文件中没有存储元数据,这将有效。

另一种选择是自定义前端,不提供文档链接,只配置要在结果中显示的元数据。 (在FrontEnd中使用 1 自动显示元数据字段) 您还需要在搜索查询中添加“ getfields ”参数,以包含相关的元数据字段。

这适用于数据库方案。尚未使用文件元数据对其进行测试,但应该可以正常工作。

Duncan de Klerk 康纳