我有一个简单的问题要解决,但是我找不到合适的解决方案。 基本上,我需要具有功能依赖项的数据集(约1亿行)。我使用numpy编写了一个python脚本来做到这一点:
#this for n attributes (about 5-8)
num_rows = 100000000
attr1 = np.random.randint(0,97000000,num_rows)
dict_values = {}
attr2 = []
for i in range(num_rows):
l = np.random.randint(0,97000000,1)[0]
if (attr1[i] in list(dict_values.keys())):
l = dict_values[attr1[i]]
else:
dict_values[attr1[i]] = l
attr2.append(l)
attr2 = np.array(attr2)
我生成一个具有n行的numpy数组,然后生成另一个numpy数组,将第一个属性的值保存在dict中,以便在我看到第一个属性的x值时始终将y值作为第二个属性。 现在的问题是,这是一种非常低效的方法,但是我没有找到另一种方法。 有更好的解决方案吗?
预先感谢