PDFClown在一行中使用不同的字体大小

时间:2017-07-31 10:41:35

标签: java pdf pdfclown

我正在使用PDFClown来分析PDF文档。在许多文档中,似乎PDFClown中的某些字符具有不同的高度,即使它们显然具有相同的高度。 有解决方法吗?

这是代码:

    while(_level.moveNext()) {
        ContentObject content = _level.getCurrent();
        if(content instanceof Text) {
            ContentScanner.TextWrapper text = (ContentScanner.TextWrapper)_level.getCurrentWrapper();
            for(ContentScanner.TextStringWrapper textString : text.getTextStrings()) {
                List<CharInfo> chars = new ArrayList<>();
                for(TextChar textChar : textString.getTextChars()) {
                    chars.add(new CharInfo(textChar.getBox(), textChar.getValue()));
                }
            }
        }
        else if(content instanceof XObject) {
            // Scan the external level
            if(((XObject)content).getScanner(_level)!=null){
                getContentLines(((XObject)content).getScanner(_level));
            }
        }
        else if(content instanceof ContainerObject){
            // Scan the inner level
            if(_level.getChildLevel()!=null){
                getContentLines(_level.getChildLevel());
            }
        }
    } 

以下是PDF文档示例:

Example

在本文档中,我标记了两个文本块,其中包含单词“million”。在分析“百万”中每个字符的大小时,会发生以下情况:

    第一个标记中的
  1. “m”具有高度:14,50和宽度:8,5
  2. 第一个标记中的“i”具有高度:14,50和宽度:3,0
  3. 第一个标记中的“l”具有高度:14,50和宽度3,0
  4. “m”在第二个标记中的高度为:10,56,宽度为:6,255
  5. “i”在第二个标记中的高度为:10,56,宽度为:2,23
  6. “l”在第二个标记中的高度为:10,56,宽度为:2,23
  7. 即使两个文本块的所有字符显然具有相同的大小,pdf小丑也说大小不同。

1 个答案:

答案 0 :(得分:1)

问题是由PDF Clown中的错误引起的:它假定标记的内容部分和保存/恢复图形状态块彼此正确包含且不重叠。即它假设这些结构只混合为

begin-marked-content
save-graphics-state
restore-graphics-state
end-marked-content

save-graphics-state
begin-marked-content
end-marked-content
restore-graphics-state

但从未如此

save-graphics-state
begin-marked-content
restore-graphics-state
end-marked-content

begin-marked-content
save-graphics-state
end-marked-content
restore-graphics-state.

不幸的是,这种假设是错误的,标记的内容部分和保存/恢复图形状态块可以以任何他们喜欢的方式混合。

E.g。在手头的文件中有如下序列:

q
[...1...]
/P <</MCID 0 >>BDC 
Q
[...2...]
EMC

此处[...1...]包含在由qQ包围的保存/恢复图形状态块中,[...2...]包含在由{{1}封装的标记内容块中}和/P <</MCID 0 >>BDC

由于错误的假设,以及EMC/P <</MCID 0 >>BDC的排列方式,PDF小丑将上述内容解析为Q和空标记的内容块{{1}包含在保存/恢复图形状态块中。

因此,如果[...1...]内的图形状态发生变化,则PDF Clown认为它们仅限于上面的行,而实际上并非如此。

我发现修复此问题的唯一简单方法是禁用PDF Clown中标记的内容解析。

为此,我更改了[...2...],如下所示:

  1. [...2...]我解除了org.pdfclown.documents.contents.tokens.ContentParser选项:

    parseContentObjects()
  2. contentObject instanceof EndMarkedContent我删除了 public List<ContentObject> parseContentObjects( ) { final List<ContentObject> contentObjects = new ArrayList<ContentObject>(); while(moveNext()) { ContentObject contentObject = parseContentObject(); // Multiple-operation graphics object end? if(contentObject instanceof EndText // Text. || contentObject instanceof RestoreGraphicsState // Local graphics state. /* || contentObject instanceof EndMarkedContent // End marked-content sequence. */ || contentObject instanceof EndInlineImage) // Inline image. return contentObjects; contentObjects.add(contentObject); } return contentObjects; } 分支:

    parseContentObject
  3. 通过这些更改,可以正确提取字符大小。

    顺便说一句,虽然返回的单个字符框似乎暗示该框对所讨论的角色是完全自定义的,但事实并非如此:仅仅框的宽度是特定于字符的,高度是从整体字体计算的属性(和当前字体大小)但不是特定于字符,参见if(operation instanceof BeginMarkedContent)方法 public ContentObject parseContentObject( ) { final Operation operation = parseOperation(); if(operation instanceof PaintXObject) // External object. return new XObject((PaintXObject)operation); else if(operation instanceof PaintShading) // Shading. return new Shading((PaintShading)operation); else if(operation instanceof BeginSubpath || operation instanceof DrawRectangle) // Path. return parsePath(operation); else if(operation instanceof BeginText) // Text. return new Text( parseContentObjects() ); else if(operation instanceof SaveGraphicsState) // Local graphics state. return new LocalGraphicsState( parseContentObjects() ); /* else if(operation instanceof BeginMarkedContent) // Marked-content sequence. return new MarkedContent( (BeginMarkedContent)operation, parseContentObjects() ); */ else if(operation instanceof BeginInlineImage) // Inline image. return parseInlineImage(); else // Single operation. return operation; }

    org.pdfclown.documents.contents.fonts.Font

    个人角色身高计算仍然是TODO。