我有一个时间序列,其值存储在不同的csv中。 每个csv都经过排序,包含一个时间扫描的变量秒。
my-component/my-cjs-script
现在我如何设置应根据变量 df = dd.read_csv('/home/data/derived/ips_subnets.7days/*')
df.head()
seconds IP subnet
0 1477252800 Private-10.0.0.0 10.101.15.6
1 1477252800 Private-10.0.0.0 10.102.223.2
2 1477252800 Private-10.0.0.0 10.104.15.43
3 1477252800 Private-10.0.0.0 10.104.5.241
4 1477252800 Private-10.0.0.0 10.106.15.26
按顺序读取csv文件?
答案 0 :(得分:1)
默认情况下dask.dataframe.read_csv
按字母顺序读取文件,因此如果您的文件名遵循标准命名方案,例如2016-05-06.csv
,那么您应该没问题。
如果需要,可以使用dask.delayed进行自定义。这是一个类似的example notebook。
最后,你总是可以调用df = df.set_index('seconds')
,但这比替代方案慢得多,需要对数据进行全面扫描。