从未使用过如此混乱的数据结构

时间:2018-06-26 00:26:12

标签: python-3.x data-structures data-cleaning data-munging

我有这个工作文件(还有7000个其他相同格式的文件),非常凌乱且不整洁。我一直在阅读有关使用Pandas整理数据的信息,但是现在我感觉自己在转动轮子...

以下是在Excel中查看的原始数据:

enter image description here

以下是CSV中的一些示例文本:

第6部分:储备金摘要
十分钟储备金要求:1801
十分钟储备量估算:1801
30分钟储备金要求:626
三十分钟的保护区估价:1926年
OP 4的预期动作:,0
OP 4操作可提供的附加容量:0
第7章交换摘要
说明,进出口限额,出口限额,计划,合同 高门,-225,0,-225
NB,-550、200,-432
NYISO AC,-1400,1200,0
NYISO CSC,-346、330、330 NYISO NNC,-200、200、194 第2阶段-2000 1200 -1501
第8节。高峰时段天气预报摘要
城市,条件,风力,高温(F)
波士顿,局部多云,NE-10,66
哈特福德,大多数情况下都清楚,N-12,77

您可以看到A列无用,因此我可以将其删除。 B列主要具有变量名称,但也具有节名称(行7、9、11 ...)。有时B列具有该值,但大多数时候该值在C列中列出-有时也在D列中列出。第44-54行具有一些额外的格式,其中存在变量名和值的表。 ..

无论如何,我绝对不具备将其转换为整洁的数据框的技能,需要将其扔给其他人。但是,我希望任何人都可以提出建议。这甚至被称为“数据清理”还是“数据结构化”?

我放下Col A,然后转置了数据,但这与正确设置此数据帧相去甚远。将数据移入整齐的结构还有哪些其他技术?

任何共享的资源都很棒!我在“整洁的数据”,“数据清理”,“数据结构”上搜索了太长时间,但与该应用程序相比,它们都过于简单了。

0 个答案:

没有答案