无法使用TIKA提取文本

时间:2016-09-16 11:19:57

标签: java parsing apache-tika

我们有一个pdf,这是一个手写文档,并使用扫描仪转换为PDF格式。我正在使用TIKA 1.13,但无法从这样的文件中提取文本。解析后我只得到“\ n \ n”作为文本。这是我的代码:

Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

PDF有两种基本风格。在我喜欢称为纯pdf的文本中,文本嵌入在标记语言中,该语言提供与html标记,文字标记等相同的功能。可以从这种类型的pdf中恢复文本。 另一种类型是将word文档另存为pdf时获得的类型。将原始文档的每个页面转换为图像,然后将图像嵌入到支持分页的pdf框架中。此时的提取为您提供了一系列图像。这些可能适合也可能不适合OCR处理。