使用实体识别在GSA中的现有元数据中提取内容

时间:2015-12-09 14:44:46

标签: regex search google-search-appliance

在GSA中使用实体识别时,它仅适用于网站/文档的“内容”,还是可以提取现有元数据的某些部分?

我有一个元数据,我希望只提取与正则表达式匹配的元数据内容字段的特定部分。这是否可能与GSA实体认可?或者也许是Google Search Appliance中的其他工具。

1 个答案:

答案 0 :(得分:1)

Entity recognition is only able to extract entities from document contents and URLs.

To clean up metadata you have a few options:

  • do it in the source repo
  • use a doc filter or transform if it's being fed by a connector
  • use a metadata and url feed to add new (sanitized) metadata