不准确的pdf到文本转换

时间:2013-07-22 11:16:53

标签: linux ocr aspell pdftotext

我已经尝试过在Linux上提供的几乎所有pdf到文本转换器,但是文本的某些部分已损坏/不准确。就像某些字符被其他字符替换一样,pdf中存在的文本中缺少一些字。对于某些单词,转换后的文本包含分号等。

我也试过aspell以便我可以纠正这些词语,但aspell对某些词语保持沉默。

注意:pdf包含瑞典语文本。

那么,有没有解决方案来解决pdf到文本转换的这种不准确性?

1 个答案:

答案 0 :(得分:1)

没有。我认为所有pdf文件都没有可行的解决方案,因为显示的可视文本的实际文本可以以各种方式存储。

例如,当LaTeX生成pdfs时,它取决于几个配置选项,如何嵌入一些非ascii字符。有时我会:o代替ö,有时会o:,有时会直接嵌入角色。这些变体中的每一个都显示为<{em> ö

如果您使用自己喜欢的pdf-viewer复制并粘贴文本或尝试搜索损坏的单词,您可能会看到相同的效果。

要解决这些问题,可以使用ocr软件 - 在识别这些工具方面存在所有缺点。