文本提取不会丢失文本格式

时间:2016-07-15 16:21:24

标签: file text pdftotext

平,

我目前正在研究文本提取器软件,例如pdftotextantiwordcatdoc等...&我想了解为什么没有软件可以保持文本的完美。在不丢失格式的情况下解析文本是否如此困难?

感谢。

1 个答案:

答案 0 :(得分:0)

  

难以在不丢失格式的情况下解析文本吗?

是!

  

我想了解为什么没有软件可以保持文本的完美

如果你真的开始考虑解决这个问题,你很快就会明白为什么这很难做到。通常情况下,人们会看到他们的计算机屏幕,只看到一堆文字,并且不了解屏幕上的内容与文件中存储的内容之间的区别。

正如关于这个问题的一些评论所指出的,每种文件格式都有其独特的挑战,我比其他文件格式更熟悉PDF,但让我们简单看一下。

PDF构建为页面描述语言,请参阅wikipedia,计算机可以在屏幕上解释和绘制的内容,无论在何处查看,都可以看作作者的意图。

这意味着存储在PDF中的内容是计算机能够重现视觉表示的最小信息量,仅此而已。许多PDF创建工具支持它们所需的,其他创建工具提供有关PDF内容的更多信息,以便以后可以提取内容而无需OCR PDF。

文本可以通过多种方式存储在PDF,实际文本,包含文本或路径的图像中。可能还有更多和我列出的3个,只有1是我们认为的真实文本,除了从最终用户的角度来看,它们都是文本,因为这就是他们看,他们不知道这些文字是如何被绘制到屏幕上的,甚至还没有开始谈论不同的语言,编码和字体。