Question

我们有一个pdf，这是一个手写文档，并使用扫描仪转换为PDF格式。我正在使用TIKA 1.13，但无法从这样的文件中提取文本。解析后我只得到“\ n \ n”作为文本。这是我的代码：

Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);

有人可以帮忙吗？

Answer 1

PDF有两种基本风格。在我喜欢称为纯pdf的文本中，文本嵌入在标记语言中，该语言提供与html标记，文字标记等相同的功能。可以从这种类型的pdf中恢复文本。另一种类型是将word文档另存为pdf时获得的类型。将原始文档的每个页面转换为图像，然后将图像嵌入到支持分页的pdf框架中。此时的提取为您提供了一系列图像。这些可能适合也可能不适合OCR处理。

无法使用TIKA提取文本

1 个答案: