Question

我有一个时间序列，其值存储在不同的csv中。每个csv都经过排序，包含一个时间扫描的变量秒。

my-component/my-cjs-script

现在我如何设置应根据变量df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') df.head() seconds IP subnet 0 1477252800 Private-10.0.0.0 10.101.15.6 1 1477252800 Private-10.0.0.0 10.102.223.2 2 1477252800 Private-10.0.0.0 10.104.15.43 3 1477252800 Private-10.0.0.0 10.104.5.241 4 1477252800 Private-10.0.0.0 10.106.15.26按顺序读取csv文件？

Answer 1

默认情况下dask.dataframe.read_csv按字母顺序读取文件，因此如果您的文件名遵循标准命名方案，例如2016-05-06.csv，那么您应该没问题。

如果需要，可以使用dask.delayed进行自定义。这是一个类似的example notebook。

最后，你总是可以调用df = df.set_index('seconds')，但这比替代方案慢得多，需要对数据进行全面扫描。

dask csv阅读顺序

1 个答案: