什么是Lucene搜索的好选择?

时间:2012-05-22 06:48:17

标签: symfony1 lucene ms-word converter zend-lucene

我有成千上万的Cvs,我想搜索以'计算机科学'为背景的简历。

所以,我用Google搜索并了解Lucene完成了这项工作,我需要将数据提供给Lucene,并将所有文档编入索引。

在搜索特定文本(比如'Compuet science')时,会导致CV与结果匹配。

为此,我需要将MSword-93 / MSword-2007 / PDF转换为文本并提供Lucene。

我可以从MSword2007文档中获取文本,但我无法从MSword 2003获取文本。

有很多pdf作家,但我没有得到任何PDF阅读器库可以做到这一点。

请注意PDF阅读器库并将ms93文档转换为文本或者如果Lucene搜索有任何替代方法,请告诉我。

谢谢,非常感谢您的回答

1 个答案:

答案 0 :(得分:0)

您可以使用Apache Solr或直接Tika从PDF和MS Word中提取文字并对其进行索引。两者都是Java项目,但您可以从PHP调用它们的服务器。