我在SOLR中索引了数千个文档,这些文档表示从不同网站抓取的数据。文档的一个字段是SourceURL,其中包含我抓取并编入此文档索引的网页的网址。
我想使用提升查询来提升特定网站的结果。 例如,我有4个文件,每个文件在SourceURL中包含以下数据
我想提升来自stackoverflow.com的所有结果,而不是子域(在本例中为结果2和3)。
您知道如何索引网址字段,然后使用提升查询来识别特定网站中的所有文档,如上例所示?
答案 0 :(得分:3)
一种方法是在索引时间之前解析url并指定它是否是主域(例如,schema.xml文件中的primarydomain
布尔字段)。
然后,您可以在查询结果中提升primarydomain
字段。请参阅使用Solr Wiki中的DisMaxQParserPlugin获取有关如何在查询时提升字段的示例。