如何在Solr中的URL字段中进行搜索? (如*通配符*)

时间:2014-04-04 22:44:11

标签: apache solr xsd bigdata solrcloud

在Solr中,我有一个专门用于URL的字段。 URL字段的长度最多可达200​​0。但是,我只需要搜索前200个字符。

示例网址: https://www.google.co.uk/search/2014/here/?q=help+me&oq=stackoverflow&aqs=c

我在过去两周内使用Grams和Tokenizers的各种组合进行了实验,但无济于事。我似乎总是昙花一现。我会提供示例,但它们都是标准的,因此非工作类型不会混淆这一点。

主要问题似乎是Solr如何处理标点符号。它将非A-z / 0-9字符视为分隔符。如何为字段禁用此功能?

例如,我可以搜索:' google'并获得正确的结果,但当我搜索google.co'没有回来。与大多数非A-z / 0-9字符相同的问题,似乎将它们视为分隔符。

一切都需要*通配符*可以从4char字符串搜索到最多200个字符串。

因此,以下搜索字词将返回上述结果。 '&安培; AQS''&流量放大器; AQS =',' PS://www.goo',' Q =帮助+&#39 ;,' 2014 /他' ...等

如何为URL 通配符用例定义字段类型?

1 个答案:

答案 0 :(得分:0)

您可以为您的网址使用字符串字段,并使用一个过滤器将其剪切为200个字符。它也可以是一个正则表达式,也只保留该字段的200个字符。

字符串字段将匹配确切的标记