Question

假设我有这个数据帧：

将pandas导入为pd

def creatingDataFrame():

    raw_data = {'Region1': ['A', 'A', 'C', 'B' , 'A', 'B'],
                'Region2': ['B', 'C', 'A', 'A' , 'B', 'A'],
                'var-1': [20, 30, 40 , 50, 10, 20],
                'var-2': [3, 4 , 5, 1, 2, 3]}
    df = pd.DataFrame(raw_data, columns = ['Region1', 'Region2','var-1', 'var-2'])
    return df

我想要生成此列：

df['segment']=['A-B','A-C','A-C','A-B','A-B','A-B']

请注意，它使用列'Region1'和'Region2'，但是按排序顺序。我不知道如何使用熊猫这样做。我想到的唯一解决方案是使用列表作为中间步骤：

Regions=df[['Region1','Region2']].values.tolist()
segments=[]
for i in range(np.shape(Regions)[0]):
    auxRegions=sorted(Regions[i][:])
    segments.append(auxRegions[0]+'-'+auxRegions[1])
df['segments']=segments

获得：

>>> df['segments']
0    A-B
1    A-C
2    A-C
3    A-B
4    A-B
5    A-B

Answer 1

你需要：

df['segments'] = ['-'.join(sorted(tup)) for tup in zip(df['Region1'], df['Region2'])]

输出：

    Region1 Region2  var-1  var-2 segments
0       A       B     20      3      A-B
1       A       C     30      4      A-C
2       C       A     40      5      A-C
3       B       A     50      1      A-B
4       A       B     10      2      A-B
5       B       A     20      3      A-B

Answer 2

`v = np.sort(df.iloc[:, :2], axis=1).T df['segments'] = [f'{i}-{j}' for i, j in zip(v[0], v[1])] # '{}-{}'.format(i, j)`

df
  Region1 Region2  var-1  var-2 segments
0       A       B     20      3      A-B
1       A       C     30      4      A-C
2       C       A     40      5      A-C
3       B       A     50      1      A-B
4       A       B     10      2      A-B
5       B       A     20      3      A-B

DataFrame.agg

`str.join` + `df['segments'] = pd.DataFrame( np.sort(df.iloc[:, :2], axis=1)).agg('-'.join, axis=1)`

df
  Region1 Region2  var-1  var-2 segments
0       A       B     20      3      A-B
1       A       C     30      4      A-C
2       C       A     40      5      A-C
3       B       A     50      1      A-B
4       A       B     10      2      A-B
5       B       A     20      3      A-B

{{1}}

（上面一个更快。）

Pandas：在排序列中合并两个数据帧列

2 个答案:

`v = np.sort(df.iloc[:, :2], axis=1).T df['segments'] = [f'{i}-{j}' for i, j in zip(v[0], v[1])] # '{}-{}'.format(i, j)`

`str.join` + `df['segments'] = pd.DataFrame( np.sort(df.iloc[:, :2], axis=1)).agg('-'.join, axis=1)`

Pandas：在排序列中合并两个数据帧列

2 个答案:

v = np.sort(df.iloc[:, :2], axis=1).T df['segments'] = [f'{i}-{j}' for i, j in zip(v[0], v[1])] # '{}-{}'.format(i, j)

str.join + df['segments'] = pd.DataFrame( np.sort(df.iloc[:, :2], axis=1)).agg('-'.join, axis=1)

`v = np.sort(df.iloc[:, :2], axis=1).T df['segments'] = [f'{i}-{j}' for i, j in zip(v[0], v[1])] # '{}-{}'.format(i, j)`

`str.join` + `df['segments'] = pd.DataFrame( np.sort(df.iloc[:, :2], axis=1)).agg('-'.join, axis=1)`