我有两个数据框。数据框1大约有1亿行,并且有一个名为节点的功能,其中有重复项。 DataFrame 2具有节点的唯一条目以及该功能的属性的另外10列。我想针对该节点将数据从数据帧2迁移到数据帧1。有没有比此代码更快的方法呢?
我正在Kaggle内核中尝试此操作,它花费的时间太长,以至于甚至一个属性都无法转移到数据框1。
train['f11'] = np.zeros((train.shape[0], 1), dtype = 'int8')
for node in train['node1_id'].unique():
train.loc[train.loc[:,'node1_id'] == node, 'f11'] = data[data['node_id'] == node]['f1'].values[0]
f1
是节点的属性之一。训练数据框的特征为node1_id
,其中数据数据框的特征与node_id
相同,并且该特征的属性
我认为可以有更快的方法吗?还可以对许多数据进行预测建模,还是我必须迁移到大数据工具?