附加数据框问题

时间:2021-01-16 01:13:28

标签: python dataframe append concatenation

数据框问题

<头>
ID C1 C2 M1
1 A B X
2 A
3 C W
4 G H Z

想要的结果

<头>
ID C
1 A
1 B
2 B
3 C
4 C
4 G

主要问题是今天的第一个数据集有C1和C2 明天我们可以有 C1 , C2 , C3 ...Cn 将提供文件名,我的任务是读取它并获得结果,无论文件可能有多少 C 相关列。列:不需要M1。

-----我试过的:

df = pd.read_csv (r"C:\Users\JIRAdata_TEST.csv") 

df = df.filter(regex='ID|C')
print(df2)

将返回所有与 ID 和 C 相关的列,并删除 M1 列作为数据清理的一部分——不知道是否有帮助。

然后……我卡住了!

1 个答案:

答案 0 :(得分:0)

df.meltdf.dropna 一起使用:

In [1295]: x = df.filter(regex='ID|C').melt('ID', value_name='C').sort_values('ID').dropna().drop('variable', 1)

In [1296]: x
Out[1296]: 
   ID  C
0   1  A
4   1  B
5   2  A
2   3  C
3   4  G
7   4  H