目前我有一个函数,它以块的形式读取文件,执行一些工作(解析,格式化),然后yeilds
elasticsearch
批量加载器格式的数据。
目前我正在使用streaming_bulk
,但我想知道是否可以使用parallel_bulk
代替?
parallel_bulk
是否意味着它同时向elasticsearch
发送数据,还是意味着它同时调用迭代器?
基本上,parallel_bulk
到底使用多余线程是什么?
答案 0 :(得分:1)
简答:parallel_bulk
同时向elasticsearch发送数据。
从代码段here:我们看到parallel_bulk
会同时向elasticsearch发送动作块。
它使用pythons multiprocessing.dummy模块
数据被分块,每个块被传递给池中的线程