如何使用java在.docx / .doc文件中识别数学公式?

时间:2015-01-16 12:14:03

标签: java parsing math docx

在我的项目中,我正在使用XWPFWordExtractor类对象从.docx文件中读取数据,但问题在于我想在读取时识别的数学公式/方程式。我们能否确定下一行/下一个地方是数学公式/等式?

1 个答案:

答案 0 :(得分:0)

这取决于数学方程的种类和文本的种类。以及用于编写公式的方式。

  • 如果公式是某些OLE公式编辑器中的嵌入对象,那么这些外部对象的信息应该出现在文档中,尽管我不知道提取器对它们的作用。
  • 如果公式是纯文本,那么很容易区分仅包含数字的行,基本算术运算,一种括号和等于包含其他文本的等号。
  • 如果您的公式更复杂,并且您的文本也使用了一些数学词汇,那么文本和公式之间的界限可能会变得模糊。
  • 如果你的意思是字面意义上的“等式”,那么任何包含“=”的东西都是一个等式,而其他任何东西都不是。
  • 如果公式有一些常见的格式,例如常见的缩进或字体或样式类或其他什么,您可以使用它。