如何在iTextSharp上使用PDFTextExtractor

时间:2010-12-10 20:00:43

标签: itextsharp

我想使用iTextSharp从pdf文件中检索文本。但是,我无法在itextsharp(itext)的JAVA库中使用PDFTextExtractor。我需要readPDFOffline类来返回文件的内容。我将在下面给出伪,以便你理解我想要的东西。

私有字符串readPDFOffline(字符串fileUri);
阅读PDF;
检索此Pdf的文本内容; *
将内容保存到字符串 contentOfflineFile ;
return contentOfflineFile ;

我想做代码的*部分

1 个答案:

答案 0 :(得分:2)

PdfTextExtractor出现在iTextSharp的最新版本available here中。

以PDF格式检索文字 。并非不可能,但有时候唯一可行的是OCR。对于所有其他情况,PdfTextExtractor应该工作。它不起作用的案例被认为是错误,应该如此报告。

请注意,在某些情况下,无法提取看似有效文本的内容:

  1. 没有编码的文本...只是字形索引。 OCR时间。
  2. “文本”,它只是原始路径。非常低效,并且有更多OCR的时间。
  3. “文本”,即位图中的像素。 OCR再一次。
  4. OCR :光学字符识别。 Google Code上有一个相当不错的免费版本,但我不记得这个名字。“/ p>