应用错误收集

我有一个简单的问题要解决，但是我找不到合适的解决方案。基本上，我需要具有功能依赖项的数据集（约1亿行）。我使用numpy编写了一个python脚本来做到这一点：

#this for n attributes (about 5-8)
num_rows = 100000000
attr1 = np.random.randint(0,97000000,num_rows)
dict_values = {}
attr2 = []

for i in range(num_rows):

    l = np.random.randint(0,97000000,1)[0]

    if (attr1[i] in list(dict_values.keys())):
        l = dict_values[attr1[i]]
    else:
        dict_values[attr1[i]] = l

    attr2.append(l)

attr2 = np.array(attr2)

我生成一个具有n行的numpy数组，然后生成另一个numpy数组，将第一个属性的值保存在dict中，以便在我看到第一个属性的x值时始终将y值作为第二个属性。现在的问题是，这是一种非常低效的方法，但是我没有找到另一种方法。有更好的解决方案吗？

预先感谢

如何有效地生成具有功能依赖性的数据集

0 个答案: