我想使用Python将docx文件的内容(文本,图像,链接)转换为.chm文件。任何人都可以建议怎么做。
我尝试使用docx2txt
阅读docx文件内容
https://github.com/ankushshah89/python-docx2txt包。但我不知道如何阅读文件中的图像和链接。
有人可以建议如何单独阅读每个内容并将其转换为.chm文件。
答案 0 :(得分:0)
你可能会警告说这有学习曲线。
您需要将Word文档中的所有部分提取为干净的HTML文件,包括图形文件。
请尝试Save Word as HTML。但我认为这不会使HTML变得干净。
您需要Microsoft Htmlhelp编译器来创建Chm文件。我建议您使用转换工具或帮助创作工具(帽子)来完成任务。
Google搜索此类工具“DoctoChm”并尝试满足您的需求。
答案 1 :(得分:0)
我最近需要将一些简历转换为纯文本。想要从二进制格式中提取可读文本有许多用例。
您可以看到网址' http://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plain-text-without-libreoffice/'