因此,基本上,我试图将列表转换为DataFrame。
这是我尝试的两种方法,但我无法达到良好的性能基准。
import pandas as pd
mylist = [1,2,3,4,5,6]
names = ["name","name","name","name","name","name"]
# Way 1
pd.DataFrame([mylist], columns=names)
# Way 2
pd.DataFrame.from_records([mylist], columns=names)
我也尝试过dask,但是没有发现任何对我有用的东西。
答案 0 :(得分:0)
所以我只用10个列和其中1百万个值范围内的随机整数组成了一个示例,我很快就得到了最大的结果。这是否会让您开始使用dask?他们提出了一种方法here,它也与此question有关。
import dask.dataframe as dd
from dask.delayed import delayed
import pandas as pd
import numpy as np
# Create List with random integers
list_large = [np.random.random_sample(int(1e6))*i for i in range(10)]
# Convert it to dask dataframe
dfs = [delayed(pd.DataFrame)(i) for i in list_large]
df = dd.from_delayed(dfs)
# Calculate Maximum
max = df.max().compute()