在Solr中,我有一个专门用于URL的字段。 URL字段的长度最多可达2000。但是,我只需要搜索前200个字符。
示例网址: https://www.google.co.uk/search/2014/here/?q=help+me&oq=stackoverflow&aqs=c
我在过去两周内使用Grams和Tokenizers的各种组合进行了实验,但无济于事。我似乎总是昙花一现。我会提供示例,但它们都是标准的,因此非工作类型不会混淆这一点。
主要问题似乎是Solr如何处理标点符号。它将非A-z / 0-9字符视为分隔符。如何为字段禁用此功能?
例如,我可以搜索:' google'并获得正确的结果,但当我搜索google.co'没有回来。与大多数非A-z / 0-9字符相同的问题,似乎将它们视为分隔符。
一切都需要*通配符*可以从4char字符串搜索到最多200个字符串。
因此,以下搜索字词将返回上述结果。 '&安培; AQS''&流量放大器; AQS =',' PS://www.goo',' Q =帮助+&#39 ;,' 2014 /他' ...等
如何为URL 通配符用例定义字段类型?
答案 0 :(得分:0)
您可以为您的网址使用字符串字段,并使用一个过滤器将其剪切为200个字符。它也可以是一个正则表达式,也只保留该字段的200个字符。
字符串字段将匹配确切的标记