使用Foxit SDK从pdf中提取文本

时间:2012-01-27 05:51:48

标签: c# java pdf pdftotext foxit

我正在使用 Foxit SDK 从Pdf文档中提取文本。

一切都还可以,但是当我用其他语言而不是英语提取pdf时,我得不到正确的输出。

我在java中也使用了PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。

是否有其他库可以解决这个问题..? 或者还有其他一些解决方案。

3 个答案:

答案 0 :(得分:0)

就个人而言,如果你想做得对,你必须付钱。 ComponentOne有一个PDFViewer for WPF。不确定您使用的框架,因为您的标签缺少一个。

ComponentOne PDF Viewer for WPF

答案 1 :(得分:0)

您可能需要尝试使用Quick PDF Library的试用版来查看它对文档的执行情况。 http://www.quickpdflibrary.com

QP.GetPageText(7)或GetPageText(8)为大多数PDF文件返回了相当不错的结果。

安德鲁。

免责声明:我为Quick PDF Library做了一些咨询工作。

答案 2 :(得分:0)

如果你在Windows上,你可以使用adobe提供的IFilter。我,我使用了IFilter adobe提供的adobe reader 8。 这是我使用的确切示例的链接

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

表现还可以(我想。我没有使用过很多其他方法)。 400页PDF需要大约15秒。