Apache Flink:修改存储对象时,MapState是否会自动更新?

时间:2018-11-12 07:00:01

标签: apache-flink flink-streaming

是否有必要使用MapState.put()手动更新状态,或者在修改对象时是否自动更新状态?

private transient MapState<String, Word> words;
.......
Word w = words.get(word);             
if (w == null) {
  w = new Word(word);
  //words.put(word, w);  //A
}              
if (....) {
  w.countBad(1);   // countXXX modifies a the private variable in a Word object 
} else {
  w.countGood(1);
}    
//words.put(word, w);   //B

Q :如果我使用A方法,下一次计数计算会自动更新相应的Mapstate状态吗?还是在计算完成后需要使用B方法手动更新状态?

1 个答案:

答案 0 :(得分:3)

从API的角度来看,您始终需要手动更新状态。

但是,实际行为取决于状态后端。如果应用程序使用InMemoryStateBackendFsStateBackend,则所有本地状态都存储在工作进程的JVM堆上,即状态后端仅保存对该对象的引用。因此,修改对象时直接修改状态。

如果您使用RocksDBStateBackend,则所有状态访问都将被取消/串行化,并从RocksDB中读取/写入。在这种情况下,修改对象不会影响状态。

我建议始终显式更新状态,因为这将确保您可以在不调整应用程序逻辑的情况下切换状态后端。