我有一个制表符分隔的数据集,其中一些列的顺序不正确,并且丢失了。
有些行有12列,有些行有13或14或15列。
当我查看数据时,我发现以下类型的行
.... Col_10: 25 Col_11: 23432 Col12: 639142
.... Col_10: 25 Col_12: 25134 Col13: 243344
.... Col_11: 75 Col_13: 79876 Col15: 634534 Col12: 5 Col14: 73453
.... Col_10: 25 Col_11: 32425 Col13: 989423
.... Col_10: 25 Col_11: 23424 Col12: 342421 Col13: 7 Col14: 13424 Col 15: 67
.... Col_10: 95 Col_11: 32121 Col15: 111231
因此,Col_10
到Col_15
的每一列都标有column_name: value
。
我想使用
将这些数据读入pandas数据帧import pandas as pd
df = pd.read_table("fname.dat")
其中fname.dat
是上述数据的格式。
你是怎么做到的?看来我需要为15列分配空间,然后解析数据,如果它以Col_10
开头,则该值应放在第10列,如果Col_11
则放在第11列,等等。
如何使用pandas读取此类数据?