如何将未标记和缺失的列导入到pandas数据框中?

时间:2016-07-20 22:05:33

标签: python parsing pandas dataframe

我有一个制表符分隔的数据集,其中一些列的顺序不正确,并且丢失了。

有些行有12列,有些行有13或14或15列。

当我查看数据时,我发现以下类型的行

.... Col_10: 25    Col_11: 23432    Col12: 639142
.... Col_10: 25    Col_12: 25134    Col13: 243344
.... Col_11: 75    Col_13: 79876    Col15: 634534    Col12: 5    Col14: 73453
.... Col_10: 25    Col_11: 32425    Col13: 989423
.... Col_10: 25    Col_11: 23424    Col12: 342421    Col13: 7    Col14: 13424    Col 15: 67
.... Col_10: 95    Col_11: 32121    Col15: 111231

因此,Col_10Col_15的每一列都标有column_name: value

我想使用

将这些数据读入pandas数据帧
import pandas as pd
df = pd.read_table("fname.dat")

其中fname.dat是上述数据的格式。

你是怎么做到的?看来我需要为15列分配空间,然后解析数据,如果它以Col_10开头,则该值应放在第10列,如果Col_11则放在第11列,等等。

如何使用pandas读取此类数据?

0 个答案:

没有答案