我有一个数据集,其中每一行都是一个样本,一列(名称为“ Sample_ID”)为每个样本命名(以下为df1)。某些样本会重复多次(即“ Sample_ID”具有相同的值)。我想根据表中第一行到最后一行的简单升序模式(例如SAMP001,SAMP002,SAMP003等)为每个样本(名称为“ Sample_code”)生成一个名称不同的新列。但是具有相同Sample_ID的行也需要具有相同的Sample_code值(因此,我不能简单地为新列生成一组升序的示例名称)。
在下面的示例数据中,df1代表我的起始数据。 df2是我要结束的:在每一行中,Sample_code列的值均递增,但对于重复Sample_ID的行,其值相同。
我很不知道从哪里开始,所以非常感谢您的帮助。
import numpy as np
import pandas as pd
# df1
data1 = {'Sample_ID': ['123123','123456','123123','123789','456789', '123654'],
'Variable_A': [15,12,7,19,3,12],
'Variable_B':["blue","red","red","blue","blue", "red"]}
df1 = pd.DataFrame(data1)
# df2
data2 = {'Sample_ID': ['123123','123456','123123','123789','456789', '123654'],
'Sample_code' : ['SAMP001', 'SAMP002', 'SAMP001', 'SAMP003', 'SAMP004', 'SAMP005'],
'Variable_A': [15,12,7,19,3,12],
'Variable_B':["blue","red","red","blue","blue", "red"]}
df2 = pd.DataFrame(data2)
df1
df2
编辑 理想情况下,我希望升序的Sample_code名称按行的原始顺序排列,因为起始数据集中的行按收集日期排序。我希望Sample_code名称基于您在行中首次出现的特定示例。 一个新的说明性df3具有date列,可让我理解我的意思。
# df3
data3 = {'Sample_ID': ['123123','123456','123123','123789','456789',
'123654', '123123', '123789'],
'Date' : ['15/06/2019', '23/06/2019', '30/06/2019', '07/07/2019',
'15/07/2019', '31/07/2019', '12/08/2019', '27/08/2019'],
'Variable_A': [15,12,7,19,3,12,7,9],
'Variable_B':["blue","red","red","blue","blue", "red","blue", "red"]}
df3 = pd.DataFrame(data3)
df3
以下建议的解决方案有效,但是它根据出现重复的Sample_ID值的最后一行创建Sample_code名称,例如Sample_ID“ 123123”标记为“ SAMP006”(在最后一行显示此值),但我希望此名称为“ SAMP001”(在其中显示第一行)。
lookup = {}
for i, sample_name in enumerate(df3.Sample_ID):
lookup[sample_name] = f'SAMP{i:03}'
df3['Sample_code'] = df3.Sample_ID.apply(lambda x: lookup[x])
df3
答案 0 :(得分:2)
使用groupby获取每个组号,然后应用字符串格式,例如:
df1['Sample_code'] = df1.groupby('Sample_ID').ngroup().add(1).apply('SAMP{:03}'.format)
答案 1 :(得分:1)
您可以通过遍历唯一值来创建查找表,然后将其应用于新列:
lookup = {}
for i, sample_name in enumerate(df.Sample_ID.unique()):
lookup[sample_name] = f'SAMP{i:03}'
df['Sample_code'] = df.Sample_ID.apply(lambda x: lookup[x])