Question

我的文档管理应用程序涉及使用docsplit将包含非ASCII Unicode字符（日语）的.docx文件转换为PDF（如果重要的话，通过Ruby gem）。它在我的Mac上工作正常。在我的Ubuntu机器上，生成的PDF具有方框，其中字符应该是，通过Ruby调用或直接在命令行上调用。奇怪的是，当我直接在LibreOffice中打开.docx文件并进行PDF导出时，它工作正常。因此，docsplit如何调用LO会导致Unicode字符处理不当，这似乎有些方面。我已经搜索了文档和代码的各个部分，以寻找我可能需要指定的选项，但没有运气。为什么会发生这种情况的任何想法？

FWIW，docsplit使用pdf_extractor.rb中的以下选项行调用LO：

options = "--headless --invisible  --norestore --nolockcheck --convert-to pdf --outdir #{escaped_out} #{escaped_doc}"

我注意到输出格式可以选择跟在pdf:output_filter_name中的输出过滤器a - 这是我需要考虑使用的东西吗？

Answer 1

我已将此跟踪到docsplit传递给LibreOffice的--headless选项。这会调用非X版本的LO，显然没有必要的日文字体。不幸的是，似乎没有办法将选项传递给docsplit告诉它省略LO的--headless选项，所以我最终会以某种方式修补或分叉代码。

docsplit转换为PDF在Linux上的docx中修改非ASCII字符

1 个答案: