如何使用Python在Pandas中重新格式化数据帧?

时间:2017-06-13 18:22:19

标签: python csv pandas tabula

我对Pandas和Python很新,但具有扎实的编码背景。我决定选择这个,因为它可以帮助我在工作中自动化某些财务报告。

为了向您提供我的问题的基本背景,我正在使用PDF并使用Tabula将其重新格式化为CSV文件,该文件工作正常,但却给我一些格式问题。这些报告包含大约60页的PDF文件,我将其导出为CSV,然后尝试使用Pandas在Python中操作数据。

问题:当我重新格式化数据时,我得到一个看起来像这样的CSV文件 -

{{3}}

这里的问题是某些表正在转移,我认为这是由于页面数量和多个标题。

我是否可以使用Pandas重新格式化这些数据,并基本上为重新格式化创建一套规则?

  • 基本上,我想基于类似空格的东西将错位的行移回各自的位置。
  • 我是否可以删除包含特定字符串的行 - 删除额外/不必要的标题。
  • 我可以通过搜索“Total”行并将其放在其他地方以某种方式保存底部的“Total”数据吗?

实质上,有没有办法通过一组命令对这些数据进行分区(不指定行号 - 因为这会每天更改),然后相应地重新定位它,以便我可以操作数据,但是必要吗?

0 个答案:

没有答案