使用ruby

时间:2016-09-15 14:44:09

标签: xml-parsing docx pandoc mathjax mathtype

我正在尝试将Docx转换为Html, 但Docx可能包含图像,WMF格式的MathType方程和tex格式的带有$分隔符的单词方程式。

我尝试使用pandoc和LibreOffice将Docx转换为Html:

使用pandoc的问题: Pandoc跳过MathType方程,所以我必须阅读document.xml并使用gimp's convert命令行工具将WMF转换为png。

这使得一些方程式格式非常难以理解。

使用libreoffice的问题: 它实际上非常好地将整个文档转换为HTML,但在转换过程中,单词方程式从侧面被切割。

我想要的是一些可以将Docx转换为Html的工具,它将MathType方程式和单词方程转换为tex格式。

我想在ruby中做这件事,但也欢迎任何解决方法或想法。

感谢。

1 个答案:

答案 0 :(得分:1)

pandoc docx reader supports only OMML数学,而不是旧的MathType。

您可以编写一个pandoc filter来查找pandoc AST中的数学(它将作为纯文本出现)并将它们转换为pandoc math elements,pandoc LaTeX编写器将自动转换为TeX数学。