我已经尝试过在Linux上提供的几乎所有pdf到文本转换器,但是文本的某些部分已损坏/不准确。就像某些字符被其他字符替换一样,pdf中存在的文本中缺少一些字。对于某些单词,转换后的文本包含分号等。
我也试过aspell以便我可以纠正这些词语,但aspell对某些词语保持沉默。
注意:pdf包含瑞典语文本。
那么,有没有解决方案来解决pdf到文本转换的这种不准确性?
答案 0 :(得分:1)
没有。我认为所有pdf文件都没有可行的解决方案,因为显示的可视文本的实际文本可以以各种方式存储。
例如,当LaTeX生成pdfs时,它取决于几个配置选项,如何嵌入一些非ascii字符。有时我会:o
代替ö
,有时会o:
,有时会直接嵌入角色。这些变体中的每一个都显示为<{em> ö
。
如果您使用自己喜欢的pdf-viewer复制并粘贴文本或尝试搜索损坏的单词,您可能会看到相同的效果。
要解决这些问题,可以使用ocr软件 - 在识别这些工具方面存在所有缺点。