如何在SOLR中索引URL,以便我可以在网站后提升结果

时间:2011-09-08 09:41:34

标签: solr

我在SOLR中索引了数千个文档,这些文档表示从不同网站抓取的数据。文档的一个字段是SourceURL,其中包含我抓取并编入此文档索引的网页的网址。

我想使用提升查询来提升特定网站的结果。 例如,我有4个文件,每个文件在SourceURL中包含以下数据

  1. https://meta.stackoverflow.com/page1
  2. http://www.stackoverflow.com/page2
  3. https://stackoverflow.com/page3
  4. http://stackexchange.com/page1
  5. 我想提升来自stackoverflow.com的所有结果,而不是子域(在本例中为结果2和3)。

    您知道如何索引网址字段,然后使用提升查询来识别特定网站中的所有文档,如上例所示?

1 个答案:

答案 0 :(得分:3)

一种方法是在索引时间之前解析url并指定它是否是主域(例如,schema.xml文件中的primarydomain布尔字段)。

然后,您可以在查询结果中提升primarydomain字段。请参阅使用Solr Wiki中的DisMaxQParserPlugin获取有关如何在查询时提升字段的示例。