优化涉及遍历列表,数据框和字典的python代码

时间:2018-07-30 16:37:20

标签: python performance pandas dictionary

我正在尝试在大型数据集上运行代码,以任何方式对代码进行优化都可以极大地帮助您。

以下是我在做什么的伪代码:

output = []
for i in my_list:
    for index,row in df.iterrows():

        # required in output
        c1 = []
        c2 = []
        output_row1 = []
        output_row2 = []

        # data from datframe df
        var1 = row.Var1
        var2 = row.Var2

        # data from dictionaries
        for j in my_dict1[i].col1:
            output_row1.append(data_dict[j+":"+i+":"+var1+":"+var2])
            c1.append(-1)
        for j in my_dict2[i].col2:
            output_row2.append(data_dict[i+":"+j+":"+var1+":"+var2])
            c2.append(1)

        # Final output
        output.append([output_row1 + output_row2, c1 + c2])

对于my_list中的每个元素,以及数据帧df中的每一行,我想在输出中添加一个元素,其数据是从3个单独的字典my_dict1,{{1 }}和my_dict2

任何人都可以在建议任何更好的数据存储方式方面提供帮助,或者可以通过更快的速度解决此问题的任何最新的python库。预先感谢。

修改后的代码:

data_dict

0 个答案:

没有答案