格式化数据集的问题

时间:2018-10-27 13:16:59

标签: python database pandas numpy dataframe

从XML抓取了这些数据并将其存储到Pandas DataFrame之后,我想问问是否以及如何根据需求格式化数据。

Dataset Image (Updated)

问题1:基本上,每三行需要通过删除NaN来合并,以代表一行。 例如,表示此数据的正确方法是:

  qid, qualid, val

0 2065887850, 227, (0,0,0,0,0,0,0,0,0,0)
1 2021905255,  30, (49214,.....,...,....) 

问题2:

在某些地方,val变量实际上丢失了(原始数据的第三行),我需要为此设置一个NaN。在这种情况下,期望的输出将是。理想情况下,我需要一个解决这两个问题的解决方案。

  qid, qualid, val

0 2065887850, 227, (0,0,0,0,0,0,0,0,0,0)
1 2121905255,  23, (49214,.....,...,....) 
2 2834347850,  17, NaN
3 2121905255, 930, (14124,.....,...,....) 
4 2465212110, 227, (2,2,1,4,6,7,0,0,0,0)
5 2921905225, 130, NaN

1 个答案:

答案 0 :(得分:1)

您可以尝试将数据框转换为字符串类型并按3行分组并添加行,

      col_1   col_2     col_3
0   29021214    NaN     NaN
1   NaN         227     NaN
2   NaN         NaN     0,0,0,0
4   20218343    NaN     NaN
5   NaN         30      NaN
7   324234      NaN     NaN
8   NaN         532     NaN
9   NaN         NaN     NaN


temp = df.col_1.notnull().cumsum()
df = df.replace(np.nan,'').astype(str)
df.groupby(temp).sum().replace('',np.nan)

出局:

    col_1       col_2   col_3
col_1           
1   29021214    227    0,0,0,0
2   20218343    30     NaN
3   324234      532.0   NaN