应用错误收集

时间：2019-02-21 04:37:37

标签： python-3.x

我是Python的新手，需要数据清理方面的帮助。

目标是从pdf文件中删除表格。表格包已完成此操作，并且我有一个CSV文件。

在原始PDF文件中，描述可能很长（最多3 -4行），如下图所示。 [img] https://i5.photobucket.com/albums/y190/fongwee1/PDF_table.jpg[/img]

我需要将相同描述的行合并在一起。示例：我需要将索引4和5组合在一起，这样它的内容如下：索引序列号描述表 4 5说明改变乳房，肿块，影像引导下的真空辅助活检，单个病变2B

在将索引5的行组合在一起后，还应该删除它。最后，我需要设置一个查找和替换功能来对整个数据帧进行操作。

请帮助。谢谢

答案 0 :(得分：0)

没有您的抓取源代码，很难提供特定的解决方案。

从高层次看，似乎在刮擦之后，您可以循环浏览每一行。如果S / N的条目为nan，则合并每一行的值。

您甚至可以在抓取时执行此操作，在抓取每一行的同时，检查是否可以得到nan的S / N。如果是这样，则将每列的值附加到现有值上。否则，开始一个新的条目。这将解决您的观点“将索引5行合并后也应删除它”。因为实际上不会创建空行。