我正在使用tikka提取pdf的内容,但在某些文档上却出现异常。
14-11-2018 05:12:00.064 [http-nio-8080-exec-6] ERROR o.a.pdfbox.pdmodel.font.PDType1Font.<init> - Can't read the embedded Type1 font Monospace821BT-Roman
java.io.IOException: Found Token[kind=INTEGER, text=256] but expected NAME
at org.apache.fontbox.type1.Type1Parser.read(Type1Parser.java:812)
at org.apache.fontbox.type1.Type1Parser.read(Type1Parser.java:823)
at org.apache.fontbox.type1.Type1Parser.readEncoding(Type1Parser.java:203)
at org.apache.fontbox.type1.Type1Parser.parseASCII(Type1Parser.java:135)
at org.apache.fontbox.type1.Type1Parser.parse(Type1Parser.java:61)
at org.apache.fontbox.type1.Type1Font.createWithSegments(Type1Font.java:85)
at org.apache.pdfbox.pdmodel.font.PDType1Font.<init>(PDType1Font.java:262)
at org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:62)
at org.apache.pdfbox.pdmodel.PDResources.getFont(PDResources.java:146)
at org.apache.pdfbox.contentstream.operator.text.SetFontAndSize.process(SetFontAndSize.java:60)
at org.apache.pdfbox.contentstream.PDFStreamEngine.processOperator(PDFStreamEngine.java:848)
at org.apache.pdfbox.contentstream.PDFStreamEngine.processStreamOperators(PDFStreamEngine.java:503)
at org.apache.pdfbox.contentstream.PDFStreamEngine.processStream(PDFStreamEngine.java:477)
at org.apache.pdfbox.contentstream.PDFStreamEngine.processPage(PDFStreamEngine.java:150)
at org.apache.pdfbox.text.LegacyPDFStreamEngine.processPage(LegacyPDFStreamEngine.java:139)
at org.apache.pdfbox.text.PDFTextStripper.processPage(PDFTextStripper.java:391)
at org.apache.tika.parser.pdf.PDF2XHTML.processPage(PDF2XHTML.java:147)
at org.apache.pdfbox.text.PDFTextStripper.processPages(PDFTextStripper.java:319)
at org.apache.pdfbox.text.PDFTextStripper.writeText(PDFTextStripper.java:266)
at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:117)
at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:171)
某些其他字体也有例外?
反正有加载特定字体的地方。 这不是一个单一的问题,我在其他一些字体上也有例外。
我正在使用 tikka core 1.18 。