使用pdfclown从特定区域提取

时间:2013-05-21 06:59:18

标签: java pdf pdfclown

我试图用两列突出显示PDF格式的文本,但问题是提取器在行中提取文本行。因此查询的文本不匹配。 我在想是否pdfclown中有一些功能可以帮助我提取页面的前半部分,即第一列,然后可能通过选择区域来提取第二列。

感谢。

1 个答案:

答案 0 :(得分:0)

当您谈到使用PDF Clown进行文本提取时,我假设您正在使用该库的TextExtractor类。

此类提供了许多有助于限制解析区域的属性:

public void setAreas(List<Rectangle2D> value);
public void setAreaTolerance(double value);
public void setAreaMode(AreaModeEnum value);

setAreas允许您设置页面区域以从中提取文字,setAreaTolerance允许您为这些区域添加一些容差(基本上在所有方向上按此值放大区域),setAreaMode 1}}用于控制字符串是否必须包含Containment)或仅需要与区域相交Intersection )包括在扫描结果中。

这些属性如何工作,可以在TextExtractor方法

中见证
public Map<Rectangle2D,List<ITextString>> filter(
    List<? extends ITextString> textStrings,
    Rectangle2D... areas
);

过滤页面上所有文本字符串的列表。