我正在开发一个将技术文档导入跟踪系统的项目。少数出版物包含嵌入式HTML
。这是正常的,我们删除了HTML
,它通常用于向正文添加粗体或斜体等格式。
现在我们收到的文件包含MathML
。是否有任何库(或方法)将剥离标记并提供合理的文本等效文件?我意识到MathML
允许图形表示,但即使是那些也有文本等价物。
答案 0 :(得分:0)
要执行此操作,您必须处理MathML并对其进行解释。与删除html标记的情况不同,剥离标记通常会剥离公式中的含义。
所以你需要一个mathml解析器。两个都是由David Carlisle想到的,并且基于xslt:pmml2tex转换为Latex格式,通常或多或少可读:您的示例将呈现为\frac{a+b+c}{2\times 5}
另外,pmathmlascii对mathml的ascii艺术表现很少。您的示例将呈现为
a + b + c
---------
2 * 5
或类似。
两种样式表都可以在Google代码中找到,并在https://code.google.com/p/web-xslt/wiki/Overview
进行讨论