应用错误收集

我不完全确定你最终要对这些术语向量做什么（得分？只是检索？）但这是我可能提倡的一种策略。

不要专注于伪造术语向量的文本属性，而应考虑查看将{0}附加到每个令牌的任意元数据的payloads。在分析期间，文本将转换为标记。这包括发出关于每个令牌的许多属性。有标准属性，如位置，术语字符偏移和术语字符串本身。所有这些都可以是未反转的术语向量的一部分。另一个属性是payload，它是您可以附加到术语的任意元数据。

您可以存储任何未反转的令牌属性作为＆＃34;术语向量＆＃34;包括有效负载，您可以在评分时访问。

要做到这一点，你需要

配置您的字段以存储术语向量，包括带有效负载的术语向量
自定义分析以发出与您的条款对应的有效负载。您可以阅读更多here
使用IndexReader.getTermVector撤回条款。从那里你可以得到一个TermsEnum。然后，您可以使用它来获取具有当前有效负载的访问者的DocsAndPositionEnum
如果您想在评分中使用此功能，请考虑custom query或custom score query

将TermVector插入Lucene

1 个答案: