使用itext从pdf中提取数学文本

时间:2015-11-01 20:45:21

标签: java pdf latex itext

我有一本pdf教科书,其中包含如下数学公式:Sample PDF

但是,如果我尝试简单的文本提取,我会得到以下内容: V(r)= - 3 - - 2R R2 这不是图像,而是文本,但我不知道如何保留它的外观并将实际字符放入文本文件中。

1 个答案:

答案 0 :(得分:2)

您遇到的问题是经常遇到的问题。 PDF基本上不关心结构。它没有列,段落,文本行甚至单词的概念,更不用说具有许多特殊格式的数学公式。

PDF - 本质上 - 只对将内容放在特定位置的页面感兴趣。而这正是它对你的公式的作用,它将使用你的公式所需的字符和图形,并将它们放在页面上的某个位置。没有任何额外的知识,你可以使用后来弄清楚这些字符和图形甚至属于一个公式;更不用说在进行文本提取时重建它了。

还有两点:

1)如果您分享这样一个PDF文档的示例,我们可以查看其中是否有一些有用的信息可用于以更合格的方式提取此公式;但机会接近于零。

2)你还必须定义一种有用的方式"从你的角度来看是。公式不能很好地翻译成纯文本文件,所以你可能需要像MathML这样的东西来存储它们。