从PDF中删除特定数据

时间：2016-12-26 16:41:15

标签： c# pdf text itext

我现在可以从有问题的pdf中提取所有数据并获得所有相关数据和角色数据的坐标（例如，我知道字符'A'具有相对于pdf的坐标（x，y）。 / p>

每个字符都作为对象存储在列表中。但是，当删除不必要的数据时，我仍然需要删除但仍然不知道如何删除。

例如，我目前从中提取的pdf是一份考试试卷（在你要求它上大学之前，我已获准使用这些数据......）。但是，某些问题包含图像。图像本身不是问题，但是，它们之上的文本（例如图表轴上的标签）是作为文本提取的，但我不想要它们......

示例数据输入：

运行初始清理后，输出的数据列表将为：

1（a）Blah Blah Blah。 [1]（b）Blah Blah Blah.answer 1回答2回答3回答4回答5 [1]（c）Blah Blah Blah.282420161284002468 y x图1.1有用信息......（i）Blah Blah Blah。 [1]

（哪种类型更容易阅读）：

1
(a) Blah Blah Blah. [1]
(b) Blah Blah Blah.
    answer 1 answer 2 answer 3 answer 4 answer 5 [1]
(c) Blah Blah Blah.
    282420161284002468 y x Fig. 1.1
    Useful Information...
(i) Blah Blah Blah. [1]

如何从列表中删除数据'282420161284002468 y x Fig。1.1'的任何建议将不胜感激。

0 个答案:

没有答案