我是Dask的新手并且遇到了一些麻烦。
我正在使用一台机器(4GB内存,2个内核)来分析两个csv文件(key.csv:约200万行,约300Mb,sig.csv:~1200万行,约600Mb)。有了这些数据,大熊猫无法放入内存中,所以我切换到使用Dask.dataframe,我期望Dask会处理可以放入内存的小块内容(速度可能会慢一些,我不喜欢但是,只要它有效,我就不介意了,但是,不知怎的,Dask仍然耗尽了所有的记忆。
我的代码如下:
key=dd.read_csv("key.csv")
sig=dd.read_csv("sig.csv")
merge=dd.merge(key,sig,left_on["tag","name"],
right_on["key_tag","query_name"],how="inner")
merge.to_csv("test2903_*.csv")
# store results into a hard disk since it cant be fit in memory
我犯了什么错误吗?任何帮助表示赞赏。