Question

我有一个要解决的问题，这是上一个问题How to iterate over pandas df with a def function variable function的延续，给出的答案也很完美，但是现在我必须将所有数据附加到2列数据框中（Adduct_name和mass）。

这是上一个问题：

我的目标：我必须为给定的“化合物”计算“加合物”，两者均表示麻木，但是对于“化合物”来说，有46种不同的“加合物”。

每个加合物的计算方法如下：

加合物1 = [精确质量* M /电荷+加合物质量]

其中，exact_mass =数字，M和Charge =根据每种加合物类型的数量（1、2、3等），Adduct_mass =根据每种加合物的数量（正或负）。

我的数据：2个数据帧。一种带有加合物的名称，M，Charge，Adduct_mass。另一个对应于我要迭代的化合物的Compound_name和Exact_mass（我只是放了一个小的数据集）

加成：df_al

import pandas as pd 
data = [["M+3H", 3, 1, 1.007276], ["M+3Na", 3, 1, 22.989], ["M+H", 1, 1, 
1.007276], ["2M+H", 1, 2, 1.007276], ["M-3H", 3, 1, -1.007276]]
df_al = pd.DataFrame(data, columns=["Ion_name", "Charge", "M", "Adduct_mass"])

化合物：df

import pandas as pd 
data1 = [[1, "C3H64O7", 596.465179], [2, "C30H42O7", 514.293038], [4, 
"C44H56O8", 712.397498], [4, "C24H32O6S", 448.191949], [5, "C20H28O3", 
316.203834]]
df = pd.DataFrame(data1, columns=["CdId", "Formula", "exact_mass"])

该问题的解决方案是：

df_name = df_al["Ion_name"]
df_mass = df_al["Adduct_mass"]
df_div = df_al["Charge"]
df_M = df_al["M"]
#Defining general function 
def Adduct(x,i):
    return x*df_M[i]/df_div[i] + df_mass[i]

#Applying general function in a range from 0 to 5. 
for i in range(5):
    df[df_name.loc[i]] = df['exact_mass'].map(lambda x: Adduct(x,i))

输出

    Name exact_mass  M+3H       M+3Na        M+H        2M+H        M-3H
0   a   596.465179  199.829002  221.810726  597.472455  1193.937634 197.814450
1   b   514.293038  172.438289  194.420013  515.300314  1029.593352 170.423737
2   c   712.397498  238.473109  260.454833  713.404774  1425.802272 236.458557
3   d   448.191949  150.404592  172.386316  449.199225  897.391174  148.390040
4   e   316.203834  106.408554  128.390278  317.211110  633.414944  104.39400

现在这是严格的计算，但是我现在需要一个文件，其中： -仅存在2列（名称和质量） -所有不同的加合物都一个接一个地添加

希望放出

 Name     Mass 
 a_M+3H  199.82902
 a_M+3Na 221.810726
 a_M+H   597.472455
 a_2M+H  1193.937634
 a_M-3H  197.814450 
 b_M+3H  514.293038
 .
 . 
 .
 c_M+3H

以此类推。

我还需要将各个化合物的名称与离子形式（M + 3H，M + H等）结合起来。

目前我还没有代码。

自开始以来，我将不胜感激任何建议和更好的方法。

这是上面问题的更新：

可以这样获取和输出：

  Name     Mass       RT
 a_M+3H  199.82902     1
 a_M+3Na 221.810726    1
 a_M+H   597.472455    1
 a_2M+H  1193.937634   1
 a_M-3H  197.814450    1
 b_M+3H  514.293038    3
 .           
 . 
 .
 c_M+3H                2

所有形式的化合物的RT值相同，在此示例中，对于a = 1，b = 3，c = 2等，RT是

是否可以合并（保留此列）数据集df（我在下面在此处更新）？如您所见，df具有更多的列，例如“公式”和“ RT”，它们在计算后消失。

import pandas as pd 
data1 = [[a, "C3H64O7", 596.465179, 1], [b, "C30H42O7", 514.293038, 3], [c, 
"C44H56O8", 712.397498, 2], [d, "C24H32O6S", 448.191949, 4], [e, "C20H28O3", 
316.203834, 1.5]]
df = pd.DataFrame(data1, columns=["Name", "Formula", "exact_mass", "RT"])

第三部分！（对不起，谢谢）

这是我使用以下代码在小型数据集（df）上进行的试用，与上面的df_al相同。

df =

代码

#Defining variables for calculation

df_name = df_al["Ion_name"]
df_mass = df_al["Adduct_mass"]
df_div = df_al["Charge"]
df_M = df_al["M"]
df_ID= df["Name"]

#Defining the RT dictionary

RT = dict(zip(df["Name"], df["RT"]))

#Removing RT column

df=df.drop(columns=["RT"])

#Defining general function 

def Adduct(x,i):
    return x*df_M[i]/df_div[i] + df_mass[i]

#Applying general function in a range from 0 to 46. 

for i in range(47):
    df[df_name.loc[i]] = df['exact_mass'].map(lambda x: Adduct(x,i)) 

df

输出

#Melting

df = pd.melt(df, id_vars=['Name'], var_name = "Adduct", value_name= "Exact_mass", value_vars=[x for x in df.columns if 'Name' not in x and 'exact' not in x])

df['name'] = df.apply(lambda x:x[0] + "_" + x[1], axis=1)

df['RT'] = df.Name.apply(lambda x: RT[x[0]] if x[0] in RT else np.nan)

del df['Name']

del df['Adduct']

df['RT'] = df.name.apply(lambda x: RT[x[0]] if x[0] in RT else np.nan)

df

输出

为什么用NaN？

Answer 1

这是我要解决的方法，pandas.melt来营救：

import pandas as pd
import numpy as np

from io import StringIO

s = StringIO('''
    Name exact_mass  M+3H       M+3Na        M+H        2M+H        M-3H
0   a   596.465179  199.829002  221.810726  597.472455  1193.937634 197.814450
1   b   514.293038  172.438289  194.420013  515.300314  1029.593352 170.423737
2   c   712.397498  238.473109  260.454833  713.404774  1425.802272 236.458557
3   d   448.191949  150.404592  172.386316  449.199225  897.391174  148.390040
4   e   316.203834  106.408554  128.390278  317.211110  633.414944  104.39400
''')

df = pd.read_csv(s, sep="\s+")

df = pd.melt(df, id_vars=['Name'], value_vars=[x for x in df.columns if 'Name' not in x and 'exact' not in x])



df['name'] = df.apply(lambda x:x[0] + "_" + x[1], axis=1)

del df['Name']
del df['variable']


RT = {'a':1, 'b':2, 'c':3, 'd':5, 'e':1.5}

df['RT'] = df.name.apply(lambda x: RT[x[0]] if x[0] in RT else np.nan)
df

以下是输出：

如何遍历DFS并使用合并名称附加数据

1 个答案: