我正在尝试将Docx转换为Html,
但Docx可能包含图像,WMF格式的MathType方程和tex
格式的带有$
分隔符的单词方程式。
我尝试使用pandoc和LibreOffice将Docx转换为Html:
使用pandoc的问题:
Pandoc跳过MathType方程,所以我必须阅读document.xml并使用gimp's convert
命令行工具将WMF转换为png。
这使得一些方程式格式非常难以理解。
使用libreoffice的问题: 它实际上非常好地将整个文档转换为HTML,但在转换过程中,单词方程式从侧面被切割。
我想要的是一些可以将Docx转换为Html的工具,它将MathType方程式和单词方程转换为tex
格式。
我想在ruby中做这件事,但也欢迎任何解决方法或想法。
感谢。
答案 0 :(得分:1)
pandoc docx reader supports only OMML数学,而不是旧的MathType。
您可以编写一个pandoc filter来查找pandoc AST中的数学(它将作为纯文本出现)并将它们转换为pandoc math elements,pandoc LaTeX编写器将自动转换为TeX数学。