应用错误收集

时间：2012-01-27 05:51:48

标签： c# java pdf pdftotext foxit

我正在使用 Foxit SDK 从Pdf文档中提取文本。

一切都还可以，但是当我用其他语言而不是英语提取pdf时，我得不到正确的输出。

我在java中也使用了PDFBox，但这给了我最差的输出，Foxit SDK的输出比PDFBox好。

是否有其他库可以解决这个问题..？或者还有其他一些解决方案。

答案 0 :(得分：0)

就个人而言，如果你想做得对，你必须付钱。 ComponentOne有一个PDFViewer for WPF。不确定您使用的框架，因为您的标签缺少一个。

答案 1 :(得分：0)

您可能需要尝试使用Quick PDF Library的试用版来查看它对文档的执行情况。 http://www.quickpdflibrary.com

QP.GetPageText（7）或GetPageText（8）为大多数PDF文件返回了相当不错的结果。

安德鲁。

免责声明：我为Quick PDF Library做了一些咨询工作。

答案 2 :(得分：0)

如果你在Windows上，你可以使用adobe提供的IFilter。我，我使用了IFilter adobe提供的adobe reader 8。这是我使用的确切示例的链接

表现还可以（我想。我没有使用过很多其他方法）。 400页PDF需要大约15秒。