用于pdf,chm和djvu文件的桌面搜索实用程序

时间:2008-08-30 05:58:05

标签: desktop-search

我想编写一个工具来帮助我在linux中搜索pdf / chm / djvu文件。有关如何去做的任何指示?

主要问题是从所有这些文件中读取/导入数据。可以用C和shell脚本完成吗?

3 个答案:

答案 0 :(得分:1)

Tracker附带Ubuntu 8.04 - 它是Beagle的一个重大转变,用户认为它太资源(CPU)密集,并没有产生足够好的结果。它为pdf和chm编制索引,并根据this bug report它也索引djvu。

答案 1 :(得分:1)

请注意,djvu是一种图像压缩格式(经过优化以压缩'文本图片',通常是扫描结果)。因此,除了元数据之外,您将无法搜索文本 - 如果您首先在文档上使用OCR进行转换,那么cdleary发送的链接指的是 - ,进入文本。

对于内容为扫描文章/书籍的PDF也是如此。

答案 2 :(得分:0)

Beagle的插件怎么样?

它已经搜索了PDF,但您可以添加其他文件类型。

以下是相关的维基百科页面:http://en.wikipedia.org/wiki/Beagle_(software)