应用错误收集

时间：2010-12-10 20:00:43

标签： itextsharp

我想使用iTextSharp从pdf文件中检索文本。但是，我无法在itextsharp（itext）的JAVA库中使用PDFTextExtractor。我需要readPDFOffline类来返回文件的内容。我将在下面给出伪，以便你理解我想要的东西。

私有字符串readPDFOffline（字符串fileUri）;
阅读PDF;
检索此Pdf的文本内容; *
将内容保存到字符串 contentOfflineFile ;
return contentOfflineFile ;

我想做代码的*部分

答案 0 :(得分：2)

PdfTextExtractor出现在iTextSharp的最新版本available here中。

以PDF格式检索文字。并非不可能，但有时候唯一可行的是OCR。对于所有其他情况，PdfTextExtractor应该工作。它不起作用的案例被认为是错误，应该如此报告。

请注意，在某些情况下，无法提取看似有效文本的内容：

OCR ：光学字符识别。 Google Code上有一个相当不错的免费版本，但我不记得这个名字。“/ p>