是否有PDF解析库可以从给定的坐标中提取文本?

时间:2011-09-02 08:51:18

标签: java pdf pdf-extraction

早上好,伙计们。我已经分配了一个任务,我应该根据给定的字段和部分规范从PDF文件(银行发票)中提取文本。该规范在YAML文件中给出。字段表示为一组两个坐标 - 文本所在的矩形的左上角和右下角,以及字段的名称。我正在使用SnakeYAML将此信息加载到对象中。到目前为止,我已经取得了成功。对于下一部分,我必须使用这些数据从PDF中提取文本,嗯...我有点被困在这里。首先,我还无法确定要使用的PDF解析库。能否请您建议一个适合我任务的PDF解析库,我该如何完成上述任务呢?谢谢!

1 个答案:

答案 0 :(得分:2)

PDF Box能够从给定区域提取文本。看看PDFTextStripperByArea