PDFBox:使用表解析文件

时间:2015-09-07 13:37:53

标签: java parsing pdf pdfbox

我需要解析一个包含火车时刻表的4页文件。

example

PDFBox问题:空表格单元格=已删除!! : - (

是否有任何方法可以让PDBBox假设空表格单元格=一个特殊字符/序列?

我们举一个例子:

- >站“Thann(A)”

- >我想只保留“Thann(D)”不空的时间......所以我不会保留07.01!

- >我怎么能这样做?

现在我的应用程序正在运行,我阅读了PDF的4页,并使用自定义java类分析缓冲区数据以获取我需要的数据。

(我是这样做的,因为使用Android时,当我读取PDF两次或更多次时会出现内存崩溃...尽管它适用于标准的java项目!)

但是这样,有几次我不需要,因为下一站是空的。

我想获得“Thann(A)”:

06.01 | 06.30 | 06.21 | 07.01 |的(空) | 07.30

06.02 | 06.32 | 06.22 |的(空) | 07.03 | 07.33

AND NOT:

06.01 | 06.30 | 06.21 | 07.01 | 07.30

06.02 | 06.32 | 06.22 | 07.03 | 07.33

0 个答案:

没有答案