linux - 不准确的pdf到文本转换

不准确的pdf到文本转换

时间：2013-07-22 11:16:53

标签： linux ocr aspell pdftotext

我已经尝试过在Linux上提供的几乎所有pdf到文本转换器，但是文本的某些部分已损坏/不准确。就像某些字符被其他字符替换一样，pdf中存在的文本中缺少一些字。对于某些单词，转换后的文本包含分号等。

我也试过aspell以便我可以纠正这些词语，但aspell对某些词语保持沉默。

注意：pdf包含瑞典语文本。

那么，有没有解决方案来解决pdf到文本转换的这种不准确性？

1 个答案:

答案 0 :(得分：1)

没有。我认为所有pdf文件都没有可行的解决方案，因为显示的可视文本的实际文本可以以各种方式存储。

例如，当LaTeX生成pdfs时，它取决于几个配置选项，如何嵌入一些非ascii字符。有时我会:o代替ö，有时会o:，有时会直接嵌入角色。这些变体中的每一个都显示为<{em> ö。

如果您使用自己喜欢的pdf-viewer复制并粘贴文本或尝试搜索损坏的单词，您可能会看到相同的效果。

要解决这些问题，可以使用ocr软件 - 在识别这些工具方面存在所有缺点。

相关问题

Pdf文字转换

php中的文本到十六进制转换是不准确的

android中的文本到pdf转换

Html到PDF转换，导致文本重叠

不准确的pdf到文本转换

PS PDF转换文字问题

在Android上不准确的HSV转换

十六进制 - ＆gt;浮动转换不准确

PDF到文本文件转换

pdf到文本的转换

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？