如何有效地生成具有功能依赖性的数据集

时间:2019-01-15 17:29:04

标签: python performance functional-dependencies memory-efficient

我有一个简单的问题要解决,但是我找不到合适的解决方案。 基本上,我需要具有功能依赖项的数据集(约1亿行)。我使用numpy编写了一个python脚本来做到这一点:

#this for n attributes (about 5-8)
num_rows = 100000000
attr1 = np.random.randint(0,97000000,num_rows)
dict_values = {}
attr2 = []

for i in range(num_rows):

    l = np.random.randint(0,97000000,1)[0]

    if (attr1[i] in list(dict_values.keys())):
        l = dict_values[attr1[i]]
    else:
        dict_values[attr1[i]] = l

    attr2.append(l)

attr2 = np.array(attr2)

我生成一个具有n行的numpy数组,然后生成另一个numpy数组,将第一个属性的值保存在dict中,以便在我看到第一个属性的x值时始终将y值作为第二个属性。 现在的问题是,这是一种非常低效的方法,但是我没有找到另一种方法。 有更好的解决方案吗?

预先感谢

0 个答案:

没有答案