我想编写一个工具来帮助我在linux中搜索pdf / chm / djvu文件。有关如何去做的任何指示?
主要问题是从所有这些文件中读取/导入数据。可以用C和shell脚本完成吗?
答案 0 :(得分:1)
Tracker附带Ubuntu 8.04 - 它是Beagle的一个重大转变,用户认为它太资源(CPU)密集,并没有产生足够好的结果。它为pdf和chm编制索引,并根据this bug report它也索引djvu。
答案 1 :(得分:1)
请注意,djvu是一种图像压缩格式(经过优化以压缩'文本图片',通常是扫描结果)。因此,除了元数据之外,您将无法搜索文本 - 如果您首先在文档上使用OCR进行转换,那么cdleary发送的链接指的是 - ,或进入文本。
对于内容为扫描文章/书籍的PDF也是如此。
答案 2 :(得分:0)