如何使用Python将docx文件转换为.chm

时间:2017-09-06 09:36:18

标签: python

我想使用Python将docx文件的内容(文本,图像,链接)转换为.chm文件。任何人都可以建议怎么做。

我尝试使用docx2txt阅读docx文件内容  https://github.com/ankushshah89/python-docx2txt包。但我不知道如何阅读文件中的图像和链接。 有人可以建议如何单独阅读每个内容并将其转换为.chm文件。

2 个答案:

答案 0 :(得分:0)

你可能会警告说这有学习曲线。

您需要将Word文档中的所有部分提取为干净的HTML文件,包括图形文件。

请尝试Save Word as HTML。但我认为这不会使HTML变得干净。

您需要Microsoft Htmlhelp编译器来创建Chm文件。我建议您使用转换工具或帮助创作工具(帽子)来完成任务。

Google搜索此类工具“DoctoChm”并尝试满足您的需求。

答案 1 :(得分:0)

我最近需要将一些简历转换为纯文本。想要从二进制格式中提取可读文本有许多用例。

您可以看到网址' http://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plain-text-without-libreoffice/'