Python中的数据清理,用于pdf抓取

时间:2019-02-21 04:37:37

标签: python-3.x

我是Python的新手,需要数据清理方面的帮助。

目标是从pdf文件中删除表格。表格包已完成此操作,并且我有一个CSV文件。

在原始PDF文件中,描述可能很长(最多3 -4行),如下图所示。 [img] https://i5.photobucket.com/albums/y190/fongwee1/PDF_table.jpg[/img]

在抓取之后,这就是我在DataFrame中得到的。 [img] https://i5.photobucket.com/albums/y190/fongwee1/Data_frame.jpg[/img]

我需要将相同描述的行合并在一起。 示例:我需要将索引4和5组合在一起,这样它的内容如下: 索引序列号描述表 4 5说明改变乳房,肿块,影像引导下的真空辅助活检,单个病变2B

在将索引5的行组合在一起后,还应该删除它。最后,我需要设置一个查找和替换功能来对整个数据帧进行操作。

请帮助。 谢谢

1 个答案:

答案 0 :(得分:0)

没有您的抓取源代码,很难提供特定的解决方案。

从高层次看,似乎在刮擦之后,您可以循环浏览每一行。如果S / N的条目为nan,则合并每一行的值。

您甚至可以在抓取时执行此操作,在抓取每一行的同时,检查是否可以得到nan的S / N。如果是这样,则将每列的值附加到现有值上。否则,开始一个新的条目。这将解决您的观点“将索引5行合并后也应删除它”。因为实际上不会创建空行。