尝试使用列表填充数据框列

时间:2019-03-04 19:49:18

标签: python

我有一个数据框(df),我想创建一个名为country的新列,该列是通过查看region列以及EnglandRegions列表中存在区域值的位置来计算的然后将国家/地区值设置为英格兰,否则将其从地区列中设置为英国。

请参见下面的我想要的输出:

    name  salary         region B1salary country
0  Jason   42000         London    42000 England
1  Molly   52000     South West          England
2   Tina   36000   East Midland          England
3   Jake   24000          Wales            Wales
4    Amy   73000  West Midlands          England

您可以看到,国家(地区)中的所有值都设置为英格兰(除了分配给设置为威尔士的Jakes记录的值)(因为威尔士不在EnglandRegions列表中)。下面的代码产生以下错误:

  File "C:/Users/stacey/Documents/scripts/stacey.py", line 20
    df['country'] = np.where((df.loc[df['region'].isin(EnglandRegions)),'England', df['region'])
                                                                      ^
SyntaxError: invalid syntax

代码如下:

import pandas as pd
import numpy as np

EnglandRegions = ["London", "South West", "East Midland", "West Midlands", "East Anglia"]

data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'salary': [42000, 52000, 36000, 24000, 73000], 
        'region': ['London', 'South West', 'East Midland', 'Wales', 'West Midlands']}
df = pd.DataFrame(data, columns = ['name', 'salary', 'region'])
df['B1salary'] = np.where((df['salary']>=40000) & (df['salary']<=50000) , df['salary'], '')
df['country'] = np.where((df.loc[df['region'].isin(EnglandRegions)),'England', df['region'])
print(df)

1 个答案:

答案 0 :(得分:1)

错误所引用的特定问题是您缺少将.loc括起来的]。但是,修复此问题仍然无法进行。试试:

df['country'] = np.where(df['region'].isin(EnglandRegions), 'England', df['region'])

无论如何,这实际上就是您上方的行中B1salary所拥有的内容。