我现在可以从有问题的pdf中提取所有数据并获得所有相关数据和角色数据的坐标(例如,我知道字符'A'具有相对于pdf的坐标(x,y)。 / p>
每个字符都作为对象存储在列表中。但是,当删除不必要的数据时,我仍然需要删除但仍然不知道如何删除。
例如,我目前从中提取的pdf是一份考试试卷(在你要求它上大学之前,我已获准使用这些数据......)。但是,某些问题包含图像。图像本身不是问题,但是,它们之上的文本(例如图表轴上的标签)是作为文本提取的,但我不想要它们......
1(a)Blah Blah Blah。 [1](b)Blah Blah Blah.answer 1回答2回答3回答4回答5 [1](c)Blah Blah Blah.282420161284002468 y x图1.1有用信息......(i)Blah Blah Blah。 [1]
1
(a) Blah Blah Blah. [1]
(b) Blah Blah Blah.
answer 1 answer 2 answer 3 answer 4 answer 5 [1]
(c) Blah Blah Blah.
282420161284002468 y x Fig. 1.1
Useful Information...
(i) Blah Blah Blah. [1]
如何从列表中删除数据'282420161284002468 y x Fig。1.1'的任何建议将不胜感激。