Word Doc文件到JSON

时间:2014-10-30 14:31:58

标签: java json base64 apache-poi doc

我将解析并将ms字格式的文档转换为JSON(或通过XML最终转换为JSON)。这样的解析和转换将如何处理word doc中嵌入的图像。该图像如何以json格式表示。任何指针或演示示例。

我正在考虑使用apache poi作为解析器和json string builder的自定义java类。

是否有适用于此类解析和转换的现成工具。

2 个答案:

答案 0 :(得分:1)

只需.zip单词文件,.docx文件只不过是xml的集合。打开.zip文件后,您将找到xml文件。然后通过google feed API将您的xml文件转换为json。

答案 1 :(得分:0)

尝试将MS Document转换为Base64(ASCII字符序列),并通过JSON或XML将其作为String发送。然后你可以解码它,文档应该是相同的(嵌入图像)。