pdf / djvu /或其他图像格式文本重排的开源项目 - 将书籍格式化为kindle或其他电子阅读器

时间:2012-07-03 13:43:56

标签: python pdf kindle

由于我买了自己的kindle4,我一直在寻找可以帮助我阅读科学论文或漫画的软件。到目前为止,我的搜索已经为论文提出了k2pdfopt  和Briss漫画 - 实际上只是漫画 第一个链接,即k2pdfopt上的页面提到了一些非常好的软件,可以将pdf的某些部分裁剪成另一部分。请注意,k2pdfopt与这些pdf-cropping软件(包括Briss)在不同的行上运行。它将单词,方程等识别为以图像形式重排以适合电子阅读器的文本块。 可回流文档的维基百科页面(http://en.wikipedia.org/wiki/Reflowable_document)提到了一个由Xerox PARC设计的实验软件,其工作方式与k2pdfopt类似。
因此,我的问题是是否存在以类似方式解决问题的现有开源项目(或更多) - 即将单词级别的文本识别为图像,然后使用算法对这些图像进行排版。

  • k2pdfopt产生一个exe文件 - 尚未尝试过用wine。
  • 虽然软件是高度可定制的 - 即可以向它建议字间距和行间距,但没有用户界面,并且所有页面都必须以相同的方式处理。因此,没有办法识别目录,或者适当地添加脚注 - 或许可以进行一些人为干预。
  • 因此需要一个新项目(如果这样的项目不存在)。
  • 我想用python作为工作,但通常的pdf相关模块ReportLab和 pyPdf canot导入现有的pdf页面。有人可以帮忙搜索这样的python模块吗?

0 个答案:

没有答案