如何在apache tikka中加载特定字体?

时间:2018-11-14 05:46:13

标签: java parsing apache-tika

我正在使用tikka提取pdf的内容,但在某些文档上却出现异常。

14-11-2018 05:12:00.064 [http-nio-8080-exec-6] ERROR o.a.pdfbox.pdmodel.font.PDType1Font.<init> - Can't read the embedded Type1 font Monospace821BT-Roman
java.io.IOException: Found Token[kind=INTEGER, text=256] but expected NAME
        at org.apache.fontbox.type1.Type1Parser.read(Type1Parser.java:812)
        at org.apache.fontbox.type1.Type1Parser.read(Type1Parser.java:823)
        at org.apache.fontbox.type1.Type1Parser.readEncoding(Type1Parser.java:203)
        at org.apache.fontbox.type1.Type1Parser.parseASCII(Type1Parser.java:135)
        at org.apache.fontbox.type1.Type1Parser.parse(Type1Parser.java:61)
        at org.apache.fontbox.type1.Type1Font.createWithSegments(Type1Font.java:85)
        at org.apache.pdfbox.pdmodel.font.PDType1Font.<init>(PDType1Font.java:262)
        at org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:62)
        at org.apache.pdfbox.pdmodel.PDResources.getFont(PDResources.java:146)
        at org.apache.pdfbox.contentstream.operator.text.SetFontAndSize.process(SetFontAndSize.java:60)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processOperator(PDFStreamEngine.java:848)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processStreamOperators(PDFStreamEngine.java:503)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processStream(PDFStreamEngine.java:477)
        at org.apache.pdfbox.contentstream.PDFStreamEngine.processPage(PDFStreamEngine.java:150)
        at org.apache.pdfbox.text.LegacyPDFStreamEngine.processPage(LegacyPDFStreamEngine.java:139)
        at org.apache.pdfbox.text.PDFTextStripper.processPage(PDFTextStripper.java:391)
        at org.apache.tika.parser.pdf.PDF2XHTML.processPage(PDF2XHTML.java:147)
        at org.apache.pdfbox.text.PDFTextStripper.processPages(PDFTextStripper.java:319)
        at org.apache.pdfbox.text.PDFTextStripper.writeText(PDFTextStripper.java:266)
        at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:117)
        at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:171)

某些其他字体也有例外?

反正有加载特定字体的地方。 这不是一个单一的问题,我在其他一些字体上也有例外。

我正在使用 tikka core 1.18

0 个答案:

没有答案