剥离数学ML(转换为纯文本)

时间:2013-09-23 18:21:27

标签: mathml

我正在开发一个将技术文档导入跟踪系统的项目。少数出版物包含嵌入式HTML。这是正常的,我们删除了HTML,它通常用于向正文添加粗体或斜体等格式。

现在我们收到的文件包含MathML。是否有任何库(或方法)将剥离标记并提供合理的文本等效文件?我意识到MathML允许图形表示,但即使是那些也有文本等价物。

1 个答案:

答案 0 :(得分:0)

要执行此操作,您必须处理MathML并对其进行解释。与删除html标记的情况不同,剥离标记通常会剥离公式中的含义。

所以你需要一个mathml解析器。两个都是由David Carlisle想到的,并且基于xslt:pmml2tex转换为Latex格式,通常或多或少可读:您的示例将呈现为\frac{a+b+c}{2\times 5}

另外,pmathmlascii对mathml的ascii艺术表现很少。您的示例将呈现为

a + b + c
---------
  2 * 5

或类似。

两种样式表都可以在Google代码中找到,并在https://code.google.com/p/web-xslt/wiki/Overview

进行讨论