我需要一个可自定义的搜索引擎,它将非结构化HTML文档的常规索引与用户生成的标记相结合,用于Web应用程序的每个文档。 我已经有一个为每个标签分配分数的算法,我想将文档相关标签的权重与搜索引擎的索引系统集成。
答案 0 :(得分:3)
用于处理问题的最成熟的开源框架绝对是Lucene。无论你想以原生形式使用Lucene还是像@steen所提到的那样使用像Solr这样的抽象层都取决于你。但基本的想法很简单。
1-准备索引的源文档。你可以使用Tika或者你可以使用任何原生的xml Parser,你应该没问题。 (当我意味着准备时,您需要将文档分隔到各个字段中。)
2-据我了解,您似乎不需要任何特殊的分析仪,您可以使用标准分析仪(与lucene一起提供)。只需确保在编制索引时使用“Analyzer_With_Norms”选项。
3-您之前需要提供规范选项的原因是,您现在可以在编制索引时为每个字段指定权重。
对于不熟悉Lucene的人来说,所有这些看起来都会让人感到困惑。我建议Lucene In Action预订Lucene。
答案 1 :(得分:2)
我肯定会选择Solr。 您必须自定义一点才能获得HTML索引:
关于使用户生成的标签为索引页面提供额外语义值的问题,我建议阅读Solr Relevancy FAQ以获取有关如何进行字段索引时间提升的信息