我正在建立一个小型垂直搜索引擎,使用Elasticsearch作为索引器,Nutch作为爬虫。我使用HTML
标题字段使用edge n gram
策略为ES构建搜索建议,认为标题字段很好,因为它应该包含页面主题内容的相关术语,它会在搜索建议方面保持较小的索引,无论是单个单词还是短语。然而,到目前为止,在测试中,它并没有像想象的那样......没有出现很多建议。
目前我只使用大约10个网站进行测试,但最终将达到约500个左右。我认为由于数据集较小(10个网站,仅在HTML
标题字段上),可能没有足够的术语或短语可用来提出好的建议,至少短语建议无论如何
建议只抓取更多网站以使用标题字段上的edge n gram
策略创建更多建议(术语和短语),或者我应该使用内容字段(显然比标题字段大得多) )。
我试图对此进行微调以获得更多搜索建议,尤其是短语建议,同时注意索引大小 - 这样性能不会受到影响。有什么想法吗?
答案 0 :(得分:0)
这些天可以说,建议比搜索结果本身更重要 - 我知道,这有点荒谬。但是用户倾向于期望如果没有建议,则没有搜索结果。因此,请确保在您的建议中正确反映每个可搜索字段 - 特别是您的内容。并且"稍后优化"!不要太早看你的表现。 500个网站听起来并不像你会得到很多文件来索引。你使用什么样的硬件?