如何在solr搜索中匹配子域?

时间:2013-12-21 14:31:26

标签: solr lucene

我可以使用ClassicAnalyzer找到域名。

鉴于有像facebook.com这样的域名的文档,匹配

等查询的最佳方法是什么
  • faceboook.com(显而易见)
  • xyz.facebook.com
  • abc.xyz.facebook.com

欢迎使用任何分析器(标记器,过滤器......)或approches来构建我自己的组合。

THX!

2 个答案:

答案 0 :(得分:0)

我认为在这种情况下,StandardTokenizer可以提供更好的帮助。它将Internet域名和电子邮件地址保留为单个令牌。如果您发布一个示例文档和几个您想要匹配的搜索词,它会有所帮助。

更新:查看text_general字段类型,它完全符合您的要求。我对xyz.facebook.com,faceboook.com,abc.xyz.facebook.com和facebook进行了分析,并将它们保持在一起并按照您想要的方式进行匹配。

答案 1 :(得分:0)

我结束使用PatternCaptureGroupFilter的模式([a-zA-Z \ -_ 0-9] +)