Question

我有一些用Brazillian葡萄牙语写的pdf，我想解析和处理。我尝试使用PDFBox文本提取命令行工具（根本没有参数），但我得到以下结果：

Cão

结束为

C~
ao

此外，使用Adobe Reader复制和粘贴文本或将其作为文本导出会输出相同的结果。和其他文件一样（PDFBox，复制和粘贴，Adobe Reader导出）我设法按预期提取文本（“Cão”）所以，不是PDF专家，我认为它与文件的方式有关创建。我想知道是否有人在提取文本时看到过这种行为以及如何解决这个问题。

Answer 1

感谢Stack Overflow，我设法找到了以下帖子：

How to get text extraction from PDF to work?

它给了我正在寻找的信息。显然，生成的PDF没有理解拉丁字符所需的信息。

PDF文本搞乱了拉丁口音

1 个答案: