标签: pdf docx libreoffice
当我打开从带有中文文本的PDF文件转换成的DOCX文件时,会得到一堆乱码
但是当我直接使用python从PDF(Tika PDF分析器)中提取文本时,文本就很好了-因此,PDF文件本身中文本的完整性似乎没有任何问题
但是,为了保留格式,我需要将此PDF转换为DOCX文件,而不仅仅是将其转换为文本文件并将文本粘贴到Word文档中。
可能的解决方案可能包括:
在Libre Office中打开DOCX文件时指定编码的方法 一个PDF到DOCX转换工具,可以让我指定编码
在Libre Office中打开DOCX文件时指定编码的方法
一个PDF到DOCX转换工具,可以让我指定编码