搜索引擎的想法,用于描述结果

时间:2012-05-26 09:30:29

标签: python search full-text-search full-text-indexing

我正在制作全文搜索的搜索引擎,在显示带描述的结果时,我的性能有问题。我为当前查询做了结果,但缺乏性能是当我尝试获取文本并突出显示关键字所在的部分时。我使用pdf,txt,doc,docs,html等。所以我的搜索引擎就像:

  • 我有一个db表,我存储文档文本
  • 我有一个db表,我用它的频率索引文本

这种情况是否很好。我必须搜索索引并获取文档,解析文本,获取句子,使用关键字过滤句子。没有描述的搜索性能是:

**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев**  0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906

搜索关键字是我的母语,文档集合是3679.使用句子的描述标记,我的结果显示速度慢10倍-20倍。 (比如2-3秒)。搜索是在python中进行的。

有什么建议吗?

1 个答案:

答案 0 :(得分:2)

我真的建议你看看像Elastic search和Solr这样的项目(都是基于Lucene),它们都支持你想要做的事情(全文搜索,结果突出......)等等。