Dask:定期更新已发布的数据集并从其他客户端提取数据

时间:2020-07-29 15:05:17

标签: dask dask-distributed dask-dataframe

我想将数据从队列中添加到published dask dataset上(如redis)。然后其他python程序将能够获取最新数据(例如,每秒/分钟一次)并执行一些进一步的操作。

  1. 有可能吗?
  2. 应使用哪个附加接口?我应该先将其加载到pd.DataFrame还是更好地使用一些文本导入器?
  3. 假定的追加速度是多​​少?是否可以每秒添加1k / 10k行?
  4. 是否还有其他好的建议可以在dask集群中交换庞大且快速更新的数据集?

感谢任何提示和建议。

1 个答案:

答案 0 :(得分:1)

您在这里有一些选择。

假定的追加速度是多​​少?是否可以每秒添加1k / 10k行?

Dask只是跟踪远程数据。与选择Dask相比,应用程序的速度与选择表示数据的方式(如python列表与pandas数据框)的关系更多。 Dask每秒可以处理数千个任务。这些任务中的每一个都可以有一行,也可以有数百万行。这取决于您的构建方式。