Question

我有一个制表符分隔的数据集，其中一些列的顺序不正确，并且丢失了。

有些行有12列，有些行有13或14或15列。

当我查看数据时，我发现以下类型的行

.... Col_10: 25    Col_11: 23432    Col12: 639142
.... Col_10: 25    Col_12: 25134    Col13: 243344
.... Col_11: 75    Col_13: 79876    Col15: 634534    Col12: 5    Col14: 73453
.... Col_10: 25    Col_11: 32425    Col13: 989423
.... Col_10: 25    Col_11: 23424    Col12: 342421    Col13: 7    Col14: 13424    Col 15: 67
.... Col_10: 95    Col_11: 32121    Col15: 111231

因此，Col_10到Col_15的每一列都标有column_name: value。

我想使用

将这些数据读入pandas数据帧

import pandas as pd
df = pd.read_table("fname.dat")

其中fname.dat是上述数据的格式。

你是怎么做到的？看来我需要为15列分配空间，然后解析数据，如果它以Col_10开头，则该值应放在第10列，如果Col_11则放在第11列，等等。

如何使用pandas读取此类数据？

如何将未标记和缺失的列导入到pandas数据框中？

0 个答案: