我正在使用 Foxit SDK 从Pdf文档中提取文本。
一切都还可以,但是当我用其他语言而不是英语提取pdf时,我得不到正确的输出。
我在java中也使用了PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。
是否有其他库可以解决这个问题..? 或者还有其他一些解决方案。
答案 0 :(得分:0)
就个人而言,如果你想做得对,你必须付钱。 ComponentOne有一个PDFViewer for WPF。不确定您使用的框架,因为您的标签缺少一个。
答案 1 :(得分:0)
您可能需要尝试使用Quick PDF Library的试用版来查看它对文档的执行情况。 http://www.quickpdflibrary.com
QP.GetPageText(7)或GetPageText(8)为大多数PDF文件返回了相当不错的结果。
安德鲁。
免责声明:我为Quick PDF Library做了一些咨询工作。
答案 2 :(得分:0)
如果你在Windows上,你可以使用adobe提供的IFilter。我,我使用了IFilter adobe提供的adobe reader 8。 这是我使用的确切示例的链接
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
表现还可以(我想。我没有使用过很多其他方法)。 400页PDF需要大约15秒。