标签: solr lucene
我正在编写一个应用程序,我想用一组关键字扫描电子邮件内容(正文/主题)(在高流量电子邮件服务器上)。
我的关键字列表大约为400K(并且每天都在变化),我使用SOLR并将关键字索引为索引(关键字还包含各种字段,如名字,姓氏,商品等)。
现在的问题是,如何通过SOLR查询使用关键字搜索自由文本数据的电子邮件正文。
例如,我的关键字是“XYZ葡萄酒”,如果电子邮件正文显示“嗨这是XYZ,我送你一些葡萄酒”或“嗨送你一些XYZ葡萄酒,谢谢你的生意”两种情况我应该使用不同的搜索分数搜索HIT。
答案 0 :(得分:2)
为您的电子邮件编制索引,然后搜索+XYZ +Wines(或者更好地设置q.op=AND),并使用pf/ps来提高字词距离。
+XYZ +Wines
q.op=AND