Django Haystack子串搜索

时间:2010-08-08 00:22:11

标签: django search indexing model django-haystack

我最近在我的django支持的网站上添加了搜索功能,允许雇主使用关键字搜索员工。当用户最初上传他们的简历时,我将其转换为文本,删除停用词,然后将文本添加到该用户的TextField。我使用了Django-Haystack和Whoosh搜索引擎。

三件事 -

1)除了我可能不会使用的额外功能之外,切换到Solr或Xapian有什么具体优势吗?

2)在将简历变成文本时,我基本上是自己索引pdf。我知道Xapian和Solr都支持.pdf索引,但是,从它的外观来看,Haystack没有。关于如何解决这个问题的任何提示?或者我应该自己编制索引吗?如果是这样,我应该做的不仅仅是提供关键字的文本文件吗?

3)如果关键字与其自身完全匹配,则只会返回结果。如果用户将“数学”作为他的关键词,并且我搜索“数学”,我希望该用户出现。我无法明确告诉Xapian或Solr是否支持这一点。想法?

感谢您的任何建议。我将暂时继续深入研究这个问题。

1 个答案:

答案 0 :(得分:6)

不幸的是,我不知道回答你的其他问题,但是对于第3点。)哎呀其实支持这个。

您必须使用SearchQuerySet的自动完成功能。

详细信息: http://docs.haystacksearch.org/dev/autocomplete.html

我目前正在使用Whoosh并在部分比赛中匹配。