我正在尝试使用Dask来处理相当大的数据集,但我一直在
ValueError:min()arg是一个空序列
当我尝试运行.describe()。compute()
我已经确认Describe在普通Pandas中使用相同的数据集,因此它必须与dask相关。
这是我正在使用的行: inpFile = dd.read_csv(fPath,sep ='\ t',error_bad_lines = False,quoting = csv.QUOTE_NONE)
,完整错误是:
ValueError Traceback(最近一次调用 最后)in() ----> 1 inpFile.describe()。compute() 2#inpFile2.describe()
/home/badrul/anaconda3/lib/python3.6/site-packages/dask/dataframe/core.py in describe(self,split_every)1306 num = self._get_numeric_data()1307 - > 1308 stats = [num.count(split_every = split_every),1309 num.mean(split_every = split_every),1310
num.std(split_every = split_every),/home/badrul/anaconda3/lib/python3.6/site-packages/dask/dataframe/core.py in count(self,axis,split_every)1191
token = token,split_every = split_every)1192 if isinstance(self,DataFrame): - > 1193 result.divisions =(min(self.columns),max(self.columns))1194返回结果1195ValueError:min()arg是一个空序列
虽然它运行时间不长,但我怀疑它没有加载。 当我这样做时出现错误:inpFile.describe()。compute()