应用错误收集

为什么在groupby索引期间sort_index需要相对较长的时间？

时间：2019-02-09 12:57:16

标签： dask dask-distributed

我有一个约200万行的csv文件。此csv文件具有我设置为索引的列（列A）。现在，该索引在12个分区中具有 160万个唯一值。当我对索引执行分组依据时，它花费的时间超过了 10分钟。对于一个文件，这不是问题，但是我需要对600多个文件执行此操作。我感觉自己在做错事，但是无法指出瓶颈，有什么想法吗？

我的任务图：

任务流如下所示：

0 个答案:

没有答案

为什么C ++编译需要这么长时间？
为什么file_get_contents需要这么长时间？
为什么创建索引需要很长时间？
为什么System.Buffer.BlockCopy采用int而不是long？
为什么排序需要这么长时间？
为什么Hexo一代需要这么长时间？
SerialPort.Write（）需要相对较长的时间来执行
为什么在Memsql中创建索引需要这么长时间？
添加的索引需要多长时间才能生效？
为什么在groupby索引期间sort_index需要相对较长的时间？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？