标签: python whoosh
我想使用python进行文档搜索。 Solr是不行的,因为Java托管是一个约束。
所以嗖嗖似乎是明显的选择。但它似乎不是本地索引doc或pdf文件(如Solr所能)。使它直接索引这些文件的方法是什么?
答案 0 :(得分:4)
飞快移动只需要从这些文档中提取的文本。虽然Whoosh库不会为您提取,但有一些Python库可以为您提取文本,例如pdf miner,catdoc或antiword。
有关详细信息,请参阅这两个讨论: