Question

DF1

index|Number
0    |[Number 1]
1    |[Number 2]
2    |[kg]
3    |[]
4    |[kg,Number 3]

在我的Number列的数据框中，我需要提取数字（如果存在），kg（如果字符串包含kg和NaN（如果没有值）。如果该行同时包含数字和kg，那么我将仅提取该数字。

预期产量

index|Number
0    |1
1    |2
2    |kg
3    |NaN
4    |3

我为此编写了一个lambda函数，但出现错误

NumorKG = lambda x: x.str.extract('(\d+)') if x.str.extract('(\d+)').isdigit() else 'kg' if x.str.find('kg') else "NaN"

DF1['Number']=DF1['Number'].apply(NumorKG)

我得到的错误是：

AttributeError: 'str' object has no attribute 'str'

Answer 1

使用numpy.where作为设置值：

#extract numeric to Series
d = df['Number'].str.extract('(\d+)', expand=False)
#test if digit
mask1 = d.str.isdigit().fillna(False)

＃测试值是否包含kg mask2 = df ['Number']。str.contains（'kg'，na = False）

df['Number'] = np.where(mask1, d, 
               np.where(mask2 & ~mask1, 'kg',np.nan))
print (df)
  Number
0      1
1      2
2     kg
3    nan
4      3

您的解决方案应更改：

import re

def NumorKG(x):
    a = re.findall('(\d+)', x)
    if len(a) > 0:
        return a[0]
    elif 'kg' in x:
        return 'kg'

    else:
        return np.nan

df['Number']=df['Number'].apply(NumorKG)
print (df)
  Number
0      1
1      2
2     kg
3    NaN
4      3

应该更改您的lambda函数：

NumorKG = lambda x: re.findall('(\d+)', x)[0] 
                    if len(re.findall('(\d+)', x)) > 0 
                    else 'kg' 
                    if 'kg' in x 
                    else np.nan

Answer 2

在apply中，返回的是标量，因此您不能使用.str访问器。

由于您只处理一栏，因此无需申请。

作为Jezrael的替代方案（可以重现），这是一种可能的解决方案：

DF1 = pd.DataFrame({'Number': [["Number 1"], ["Number 2"], ["kg"], [""], ["kg", "Number 3"]]})
DF1['Number'] = DF1.Number.str.join(sep=" ")


mask_digit = DF1.Number.str.extract('(\d+)', expand=False).str.isdigit().fillna(False)
mask_kg = DF1['Number'].str.contains('kg', na=False)

DF1.loc[mask_digit, 'Number'] = DF1.Number.str.extract('(\d+)', expand=False)
DF1.loc[mask_kg,'Number'] = 'kg'
DF1.loc[~(mask_digit | mask_kg), 'Number'] = np.NaN

如何从“数据框”列的多行中提取数字和字符串？

2 个答案: