docsplit转换为PDF在Linux上的docx中修改非ASCII字符

时间:2013-10-17 13:54:55

标签: pdf libreoffice docsplit

我的文档管理应用程序涉及使用docsplit将包含非ASCII Unicode字符(日语)的.docx文件转换为PDF(如果重要的话,通过Ruby gem)。它在我的Mac上工作正常。在我的Ubuntu机器上,生成的PDF具有方框,其中字符应该是,通过Ruby调用或直接在命令行上调用。奇怪的是,当我直接在LibreOffice中打开.docx文件并进行PDF导出时,它工作正常。因此,docsplit如何调用LO会导致Unicode字符处理不当,这似乎有些方面。我已经搜索了文档和代码的各个部分,以寻找我可能需要指定的选项,但没有运气。为什么会发生这种情况的任何想法?

FWIW,docsplit使用pdf_extractor.rb中的以下选项行调用LO:

options = "--headless --invisible  --norestore --nolockcheck --convert-to pdf --outdir #{escaped_out} #{escaped_doc}"

我注意到输出格式可以选择跟在pdf:output_filter_name中的输出过滤器a - 这是我需要考虑使用的东西吗?

1 个答案:

答案 0 :(得分:0)

我已将此跟踪到docsplit传递给LibreOffice的--headless选项。这会调用非X版本的LO,显然没有必要的日文字体。不幸的是,似乎没有办法将选项传递给docsplit告诉它省略LO的--headless选项,所以我最终会以某种方式修补或分叉代码。