匹配两个不同的数组并在python中创建一个新数组

时间:2018-03-28 04:36:21

标签: python arrays numpy

我有两个二维数组,我必须通过第一个列索引匹配的第二个数组创建一个新的数组过滤。阵列的大小不同。

基本上这个想法如下:

file A

#x   y
1   2
3   4
2   2
5   4
6   4
7   4


file B

#x1    y1
0       1
1       1
11      1
5       1
7       1
My expected output 2D array should look like

#newx     newy
1         1
5         1
7         1

我尝试了以下方式:

match =[]
for i in range(len(x)):
    if x[i] == x1[i]:
        new_array = x1[i]
        match.append(new_array)

print match

这似乎不起作用。请建议一种创建新2D阵列的方法

6 个答案:

答案 0 :(得分:5)

尝试np.isin

arr1 = np.array([[1,3,2,5,6,7], [2,4,2,4,4,4]])
arr2 = np.array([[0,1,11,5,7], [1,1,1,1,1]])
arr2[:,np.isin(arr2[0], arr1[0])]
array([[1, 5, 7],
       [1, 1, 1]])

np.isin(arr2[0], arr1[0])检查arr2[0]的每个元素是否在arr1[0]中。然后,我们使用结果作为布尔索引数组来选择arr2中的元素。

答案 1 :(得分:4)

如果您在A中设置第一个元素,那么在B中找到要保持的元素相当容易:

代码:

a = ((1, 2), (3, 4), (2, 2), (5, 4), (6, 4), (7, 4))
b = ((0, 1), (1, 1), (11, 1), (5, 1), (7, 1))

in_a = {i[0] for i in a}
new_b = [i for i in b if i[0] in in_a]

print(new_b)

结果:

[(1, 1), (5, 1), (7, 1)]

将结果输出到文件:

with open('output.txt', 'w') as f:
    for value in new_b:
        f.write(' '.join(str(v) for v in value) + '\n')

答案 2 :(得分:2)

#!/usr/bin/env python3

from io import StringIO
import pandas as pd

fileA = """x   y
1   2
3   4
2   2
5   4
6   4
7   4
"""

fileB = """x1    y1
0       1
1       1
11      1
5       1
7       1
"""


df1 = pd.read_csv(StringIO(fileA), delim_whitespace=True, index_col="x")
df2 = pd.read_csv(StringIO(fileB), delim_whitespace=True, index_col="x1")

df = pd.merge(df1, df2, left_index=True, right_index=True)
print(df["y1"])

# 1    1
# 5    1
# 7    1

https://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging

答案 3 :(得分:2)

如果您使用pandas:

import pandas as pd

A = pd.DataFrame({'x': pd.Series([1,3,2,5,6,7]), 'y': pd.Series([2,4,2,4,4,4])})
B = pd.DataFrame({'x1': pd.Series([0,1,11,5,7]), 'y1': 1})

C = A.join(B.set_index('x1'), on='x')

然后,如果您想删除不需要的行/列并重命名列:

C = A.join(B.set_index('x1'), on='x')
C = C.drop(['y'], axis=1)
C.columns = ['newx', 'newy']

给你:

>>> C
   newx  newy
0     1   1.0
3     5   1.0
5     7   1.0

如果您打算使用数组,数据帧等 - 熊猫绝对值得一看:https://pandas.pydata.org/pandas-docs/stable/10min.html

答案 4 :(得分:1)

假设你的二维数组中有(x,y)对,可以使用一个简单的循环:

arr1   = [[1, 2], [3, 4], [2, 2]]
arr2   = [[0, 1], [1, 1], [11, 1]]
result = []

for pair1 in arr1:
    for pair2 in arr2:
        if (pair1[0] == pair2[0]):
            result.append(pair2)

print(result)

答案 5 :(得分:1)

不是小型阵列的最佳解决方案,但对于非常大的阵列,可以快速工作 -

import numpy as np
import pandas as pd

n1 = np.transpose(np.array([[1,3,2,5,6,7], [2,4,2,4,4,4]]))
n2 = np.transpose(np.array([[0,1,11,5, 7], [1,1,1,1,1]]))
np.array(pd.DataFrame(n1).merge(pd.DataFrame(n2), on=0, how='inner').drop('1_x', axis=1))