我想将数据从队列中添加到published dask dataset
上(如redis)。然后其他python程序将能够获取最新数据(例如,每秒/分钟一次)并执行一些进一步的操作。
pd.DataFrame
还是更好地使用一些文本导入器?感谢任何提示和建议。
答案 0 :(得分:1)
您在这里有一些选择。
假定的追加速度是多少?是否可以每秒添加1k / 10k行?
Dask只是跟踪远程数据。与选择Dask相比,应用程序的速度与选择表示数据的方式(如python列表与pandas数据框)的关系更多。 Dask每秒可以处理数千个任务。这些任务中的每一个都可以有一行,也可以有数百万行。这取决于您的构建方式。