Question

我一直在尝试找出如何在Python中实现类似于EXCEL的VLOOKUP函数的功能，以便使用一个公共值组合多个数据集。我想出了一种确实可行的方法，但我觉得这不是最佳解决方案。在下面的示例中，为了说明我的问题，我将数据集限制为只有三个，但是实际上，我可能有很多数据集

import pandas as pd
import numpy as np

time_a   = np.arange(0, 10010, 10)
data_a1  = np.random.randint(1500, 2500, 1001)
data_a2  = np.random.randint(750, 1500, 1001)

time_b   = np.arange(0, 10005, 5)
data_b1  = np.random.randint(0, 10, 2001)
data_b2  = np.random.randint(0, 20, 2001)
data_b3  = np.random.randint(0, 15, 2001)

time_c   = np.arange(0, 10030, 30)

df_a     = pd.DataFrame({'time_a': time_a, 'data_a1': data_a1, 'data_a2': data_a2})
df_b     = pd.DataFrame({'time_b': time_b, 'data_b1': data_b1, 'data_b2': data_b2, 'data_b3': data_b3})
df_c     = pd.DataFrame({'time_c': time_c})

df_a_c   = pd.merge_asof(df_c, df_a, left_on=['time_c'], right_on=['time_a'])
df_a_b_c = pd.merge_asof(df_a_c, df_b, left_on=['time_c'], right_on=['time_b'])

为使此工作正常进行，考虑到我得到了三个数据集（我希望避免），我需要使用pd.merge_asof两次。由于我现在以三个不同的时间结束（time_a，time_b和time_c），因此将其中一个重命名为{{ 1}}，然后删除其他两个：

time

受https://codereview.stackexchange.com/questions/124964/vlookup-in-python的启发，我也尝试使用时没有任何运气

df_a_b_c.rename(columns={'time_c':'time'}, inplace=True)
df_a_b_c.drop(columns=['time_a', 'time_b'])

可以使用numpy进行此操作，还是我必须绕道绕过熊猫？
我是否必须多次使用def vlookup(key, table, column, approximate_match=True): compare = key.__ge__ if approximate_match else key.__eq__ try: return max(row for row in table if compare(row[0]))[column] except ValueError: return None来组合多个数据集？
如果我只想选择某些列而不合并整个数据集怎么办？
在Python中推荐的做法是什么？

非常感谢您的帮助。

Answer 1

np.searchsorted与VLOOKUP的功能相同（实际上与INDEX + MATCH相同），设置为-1或+1（向上或向下排序）。

df_a     = pd.DataFrame({'time': time_a, 'data_a1': data_a1, 'data_a2': data_a2})
df_b     = pd.DataFrame({'time': time_b, 'data_b1': data_b1, 'data_b2': data_b2, 'data_b3': data_b3})
df_c     = pd.DataFrame({'time': time_c})

for df in [df_a, df_b]:
    for c in df.columns:
        if c == 'time':
            continue
        df_c[c] = df[c].iloc[np.clip(df['time'].searchsorted(df_c.time), 0, len(df)-1)].values

如何在Python中实现EXCEL的查找功能

1 个答案: