在大df中搜索两列(df [i]〜之类的结果)太慢了。
我相信的一件事会有所帮助-在第二个周期中删除用过的列-不起作用,因为它花了点时间。
df = pd.DataFrame({' : np.random.randn(10000),
'D' : np.random.randn(10000) })
n = 0
for i in df.columns.values:
for j in df.columns.values:
a = pd.crosstab(df[i], df[j])
n += a.sum().sum()
print(n)
也许这里有一些方法可以更快地对列进行子集化? 感谢任何想法!