遍历数据框并根据字典条件进行更新

时间:2019-04-14 15:38:58

标签: python pandas xlsx

我需要处理以下xlsx文件:

我想遍历数据帧,并且如果ITEM CODE列包含字典键,我想检查同一行是否包含字典值[0](元组的第一个位置)以及是否包含我想将字典值1(在元组中的第二个位置)插入到名为SKU的另一列中

数据帧:#df3 = df2.append(df1) enter image description here

catp = {"2755":(('24','002'),('25','003'),('26','003'),('27','004'),('28','005'),('29','006'),('30','007'),('31','008'),
                ('32','009'),('32','010'),('33','011'),('34','012'),('35','013'),('36','014')),
        "2513":(('38','002'),('40','003'),('42','004'),('44','005'),('46','006'),('48','007'),('50','008'),('52','009'),
               ('54','010'))}

for i, row in df3.iterrows():
    if catp.key() in df3['ITEM CODE'][i] and catp.value()[0] in df3['TG'][i]:
            codmarime = catp.value()[1]
            df3['SKU'][i] = '20'+df3['ITEM CODE'][i]+[i]+codmarime

    else:
        df3['SKU'][i] = '20'+df3['ITEM CODE'][i]+'???'

如果找到2755和24,则SKU ='202755638002'

如果找到2513和44,则SKU ='202513123005'

输出xlsx enter image description here

2 个答案:

答案 0 :(得分:1)

由于您未能提供文本数据来创建至少一个DataFrame片段, 我从您的图片复制了3行,创建了我的测试DataFrame:

df3 = pd.DataFrame(data=[
    [ '1513452', 'AVRO D2', '685', 'BLACK/BLACK/ANTRACITE', '24', 929.95, '8052644627565' ],
    [ '2513452', 'AVRO D2', '685', 'BLACK/BLACK/ANTRACITE', '21', 929.95, '8052644627565' ],
    [ '2755126', 'AMELIA',  'Y17', 'DARK-DENIM',            '24', 179.95, '8052644627565' ]],
    columns=[ 'ITEM CODE', 'ITEM', 'COLOR', 'COLOR CODE', 'TG', 'PRICE', 'EAN' ])

详细信息:

  • 第一行在catp列中不包含任何ITEM CODE键。
  • 第二行:ITEM CODE包含您的代码之一( 2513 ),但包含TG 列中没有保存在2513键下的元组包含第一个元素== 21
  • 第三行:ITEM CODE包含您的代码之一( 2755 ),TG == 24 2755下保存的元组中,有一个== 24

然后我们必须定义几个辅助函数:

def findContainedCodeAndVal(dct, str):
    for eachKey in dct.keys():
        if str.find(eachKey) >= 0:
            return (eachKey, dct[eachKey])
    else:
        return (None, None)

此函数尝试在dct中查找str中包含的密钥。 它返回一个2元组,其中包含找到的键和来自dct的关联值。

def find2ndElem(tuples, str):
    for tpl in tuples:
        if tpl[0] == str:
            return tpl[1]
    else:
        return ''

此函数检查tuples中的每个元组是否是其第一个元素 == str并从该元组返回第二个元素。

最后定义的函数是要应用于每一行的函数 从您的DataFrame。它返回要保存在SKU列中的值:

def fn(row):
    ind = row.name  # Read row index
    iCode = row['ITEM CODE']
    k, val = findContainedCodeAndVal(catp, iCode)
    codmarime = ''
    if k:
        tg = row.TG
        codmarime = find2ndElem(val, tg)
    if codmarime == '':
        codmarime = '???'
    return f'20/{iCode}/{ind}/{codmarime}'

请注意,它使用您的catp字典。

出于演示目的,我在返回值中引入了附加值 斜线,将相邻部分分开。在目标版本中,将其删除。

最后一件事是计算DataFrame的SKU列, 将fn函数应用于df3的每一行,并将结果保存在 SKU列:

df3['SKU'] = df3.apply(fn, axis=1)

当您打印DataFrame(包含我的测试数据)时,SKU列将 包含:

20/1513452/0/???
20/2513452/1/???
20/2755126/2/002

答案 1 :(得分:0)

我无法正确理解问题,只是更正了我在代码中看到的错误:

if catp.key() in df3['ITEM CODE'][i] and catp.value()[0] in df3['TG'][i]:

这是不正确的。

如果我了解最终目标,我将采用另一种方法工作

for key in catp.keys():
     xdf = df3.loc[(df3['SKU'].astype(str).contains(key)) & (df3['SKU'].astype(str).contains(catp[key][0])]
     if len(xdf)>0:
         for i, row in xdf.iterrows():
                codmarime = catp[key][1]
                df3.at[i,'SKU'] = '20'+row['ITEM CODE'][i]+[i]+codmarime