从PDF中删除特定数据

时间:2016-12-26 16:41:15

标签: c# pdf text itext

我现在可以从有问题的pdf中提取所有数据并获得所有相关数据和角色数据的坐标(例如,我知道字符'A'具有相对于pdf的坐标(x,y)。 / p>

每个字符都作为对象存储在列表中。但是,当删除不必要的数据时,我仍然需要删除但仍然不知道如何删除。

例如,我目前从中提取的pdf是一份考试试卷(在你要求它上大学之前,我已获准使用这些数据......)。但是,某些问题包含图像。图像本身不是问题,但是,它们之上的文本(例如图表轴上的标签)是作为文本提取的,但我不想要它们......

示例数据输入:

enter image description here

运行初始清理后,输出的数据列表将为:

1(a)Blah Blah Blah。 [1](b)Blah Blah Blah.answer 1回答2回答3回答4回答5 [1](c)Blah Blah Blah.282420161284002468 y x图1.1有用信息......(i)Blah Blah Blah。 [1]

(哪种类型更容易阅读):

1
(a) Blah Blah Blah. [1]
(b) Blah Blah Blah.
    answer 1 answer 2 answer 3 answer 4 answer 5 [1]
(c) Blah Blah Blah.
    282420161284002468 y x Fig. 1.1
    Useful Information...
(i) Blah Blah Blah. [1]

如何从列表中删除数据'282420161284002468 y x Fig。1.1'的任何建议将不胜感激。

0 个答案:

没有答案