我想使用iTextSharp从pdf文件中检索文本。但是,我无法在itextsharp(itext)的JAVA库中使用PDFTextExtractor。我需要readPDFOffline类来返回文件的内容。我将在下面给出伪,以便你理解我想要的东西。
私有字符串readPDFOffline(字符串fileUri);
阅读PDF;
检索此Pdf的文本内容; *
将内容保存到字符串 contentOfflineFile ;
return contentOfflineFile ;
我想做代码的*部分
答案 0 :(得分:2)
PdfTextExtractor出现在iTextSharp的最新版本available here中。
以PDF格式检索文字 。并非不可能,但有时候唯一可行的是OCR。对于所有其他情况,PdfTextExtractor应该工作。它不起作用的案例被认为是错误,应该如此报告。
请注意,在某些情况下,无法提取看似有效文本的内容:
OCR :光学字符识别。 Google Code上有一个相当不错的免费版本,但我不记得这个名字。“/ p>