应用错误收集

我是Dask的新手并且遇到了一些麻烦。

我正在使用一台机器（4GB内存，2个内核）来分析两个csv文件（key.csv：约200万行，约300Mb，sig.csv：~1200万行，约600Mb）。有了这些数据，大熊猫无法放入内存中，所以我切换到使用Dask.dataframe，我期望Dask会处理可以放入内存的小块内容（速度可能会慢一些，我不喜欢但是，只要它有效，我就不介意了，但是，不知怎的，Dask仍然耗尽了所有的记忆。

我的代码如下：

key=dd.read_csv("key.csv")
sig=dd.read_csv("sig.csv")

merge=dd.merge(key,sig,left_on["tag","name"],
    right_on["key_tag","query_name"],how="inner")
merge.to_csv("test2903_*.csv") 
# store results into  a hard disk since it cant be fit in memory

我犯了什么错误吗？任何帮助表示赞赏。

Dask.dataframe：合并和groupby时内存不足

0 个答案: