应用错误收集

当我打开从带有中文文本的PDF文件转换成的DOCX文件时，会得到一堆乱码

但是当我直接使用python从PDF（Tika PDF分析器）中提取文本时，文本就很好了-因此，PDF文件本身中文本的完整性似乎没有任何问题

但是，为了保留格式，我需要将此PDF转换为DOCX文件，而不仅仅是将其转换为文本文件并将文本粘贴到Word文档中。

可能的解决方案可能包括：

在Libre Office中打开DOCX文件时指定编码的方法



一个PDF到DOCX转换工具，可以让我指定编码