将索引文本与用户生成的标记相结合的搜索引擎

时间:2011-03-31 17:09:20

标签: tags search-engine semantics

我需要一个可自定义的搜索引擎,它将非结构化HTML文档的常规索引与用户生成的标记相结合,用于Web应用程序的每个文档。 我已经有一个为每个标签分配分数的算法,我想将文档相关标签的权重与搜索引擎的索引系统集成。

2 个答案:

答案 0 :(得分:3)

用于处理问题的最成熟的开源框架绝对是Lucene。无论你想以原生形式使用Lucene还是像@steen所提到的那样使用像Solr这样的抽象层都取决于你。但基本的想法很简单。

1-准备索引的源文档。你可以使用Tika或者你可以使用任何原生的xml Parser,你应该没问题。 (当我意味着准备时,您需要将文档分隔到各个字段中。)

2-据我了解,您似乎不需要任何特殊的分析仪,您可以使用标准分析仪(与lucene一起提供)。只需确保在编制索引时使用“Analyzer_With_Norms”选项。

3-您之前需要提供规范选项的原因是,您现在可以在编制索引时为每个字段指定权重。

对于不熟悉Lucene的人来说,所有这些看起来都会让人感到困惑。我建议Lucene In Action预订Lucene。

答案 1 :(得分:2)

我肯定会选择Solr。 您必须自定义一点才能获得HTML索引:

  • 首先,您需要考虑html页面的哪些元素应该进入特定的Solr字段。您指明主题html是'非结构化',但如果页面共享任何共同特征,您将受益于将它们存储在索引的单独字段中。
  • 您应该查看与tika一起使用的HtmlParser very well与solr。

关于使用户生成的标签为索引页面提供额外语义值的问题,我建议阅读Solr Relevancy FAQ以获取有关如何进行字段索引时间提升的信息