飞快移动:索引MS文档,PDF

时间:2011-07-27 18:47:37

标签: python whoosh

我想使用python进行文档搜索。 Solr是不行的,因为Java托管是一个约束。

所以嗖嗖似乎是明显的选择。但它似乎不是本地索引doc或pdf文件(如Solr所能)。使它直接索引这些文件的方法是什么?

1 个答案:

答案 0 :(得分:4)

飞快移动只需要从这些文档中提取的文本。虽然Whoosh库不会为您提取,但有一些Python库可以为您提取文本,例如pdf miner,catdoc或antiword。

有关详细信息,请参阅这两个讨论: