我正在尝试按文件类型为用户设置过滤器。
使用特殊查询字词File Type Filtering或File Extension Filter会在查询字词的末尾添加文字。反过来显示搜索“abc etx:pdf”,并将其添加到不太理想的建议中。
为每种文件类型设置单独的前端或使用as_filetype也会导致类似的困境。
我真的不想为每一个设置单独的集合,因为我最终会有超过70个集合(我正在抓取10个网站)。
是否有其他替代方法可以过滤未添加到查询字词中的mime或扩展名?按mime或扩展名过滤的最佳方式是什么?
答案 0 :(得分:0)
如果文件的扩展名出现在其网址中,您可以使用实体识别功能添加一个特殊的元数据条目,并将文件扩展名作为值。或者,您可以从Web服务器返回该文件的特殊HTTP响应标头,您可以在GSA中将其配置为文件的附加元数据。
一旦有了文件的特定元数据字段,就可以使用requiredfields参数对其进行过滤,而不会污染搜索项。例如,假设所有PDF都有一个名为" FileType"的元数据字段。值为" PDF",您的搜索网址看起来像
...&q=<what user searched>&requiredfields=FileType:PDF