我正在尝试在大型数据集上运行代码,以任何方式对代码进行优化都可以极大地帮助您。
以下是我在做什么的伪代码:
output = []
for i in my_list:
for index,row in df.iterrows():
# required in output
c1 = []
c2 = []
output_row1 = []
output_row2 = []
# data from datframe df
var1 = row.Var1
var2 = row.Var2
# data from dictionaries
for j in my_dict1[i].col1:
output_row1.append(data_dict[j+":"+i+":"+var1+":"+var2])
c1.append(-1)
for j in my_dict2[i].col2:
output_row2.append(data_dict[i+":"+j+":"+var1+":"+var2])
c2.append(1)
# Final output
output.append([output_row1 + output_row2, c1 + c2])
对于my_list中的每个元素,以及数据帧df
中的每一行,我想在输出中添加一个元素,其数据是从3个单独的字典my_dict1
,{{1 }}和my_dict2
任何人都可以在建议任何更好的数据存储方式方面提供帮助,或者可以通过更快的速度解决此问题的任何最新的python库。预先感谢。
修改后的代码:
data_dict