如何用更快的迭代速度替换循环?

时间:2019-04-05 17:10:58

标签: python python-3.x

我有两个数据框。数据框1大约有1亿行,并且有一个名为节点的功能,其中有重复项。 DataFrame 2具有节点的唯一条目以及该功能的属性的另外10列。我想针对该节点将数据从数据帧2迁移到数据帧1。有没有比此代码更快的方法呢?

我正在Kaggle内核中尝试此操作,它花费的时间太长,以至于甚至一个属性都无法转移到数据框1。

train['f11'] = np.zeros((train.shape[0], 1), dtype = 'int8')
for node in train['node1_id'].unique():
    train.loc[train.loc[:,'node1_id'] == node, 'f11'] = data[data['node_id'] == node]['f1'].values[0]

f1是节点的属性之一。训练数据框的特征为node1_id,其中数据数据框的特征与node_id相同,并且该特征的属性

我认为可以有更快的方法吗?还可以对许多数据进行预测建模,还是我必须迁移到大数据工具?

0 个答案:

没有答案