应用错误收集

我正在尝试用Java创建一个文本处理应用程序，它需要文本作为输入。现在我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是PDF文件可能包含表格，方程式和特殊符号，因此PdfBox提取的文本在许多地方都包含垃圾。由于这个原因，我的文本处理应用程序无法提供最佳结果。我想知道PDF是否具有表的特定格式，以便我可以到达根级别并在提取时将其排除。此外，在许多场合，提取的文本包含呈现为“？”的未知字符。虽然在实际的PDF中，它们似乎是正常的字母表。我也尝试了其他库 - IText，但结果不尽如人意。简而言之，我想要的只是从PDF文件中提取简单的句子，排除所有其他垃圾。如果有人可以通过建议解决这个问题或其他更好的Java提取库来帮助我，那将是很棒的。感谢。

在PDF提取时忽略表格

2 个答案: