我需要从ms word文档创建一个txt文件。 txt文件将用作我的用户界面的帮助文档,因此它需要采用特殊格式。是否有任何第三方软件可用于读取ms word doc并以某种格式从中创建文本文件?或者,我可以使用PERL来读取单词doc,以便我可以提取单词doc中指定的标题,表格和章节标题。我需要读取word文档,当我解析它时,我需要找出一种方法来说明从ms word doc解析的行是表格内容还是节目标题?或者还有其他方法吗?
答案 0 :(得分:0)
我对解析HTML有了更多的了解,因此我建议您先使用MSWord::ToHTML
或某些等效模块将Word文档翻译成HTML。
然后你可以使用其中一个HTML解析模块,比如Mojo::DOM
来解析你的数据及其样式。有关如何使用后一个模块Mojocast Episode 5
的8分钟视频。