Spark Streams:状态用法

时间:2018-06-11 16:53:58

标签: apache-spark spark-streaming

我知道可以将状态检查点到HDFS中,并且可以使用updateStateByKey或mapWithState更新状态。你能在下面澄清一下吗?

1)如果某一天某州有超过5亿的独特需求需要维持,如果有2000万条记录的更新,那么所有5亿条记录都将被带入内存,检查点文件系统?此外,它是否会在updateStateByKey或mapWithState?

之间变化

2)数据如何在状态内进行分区?是否可以控制,比如将所有10.00am-11.00am更新放到10.00am分区?

3)假设状态在一天中不断更新并且有5亿个唯一密钥,有没有办法在特定点提取(迭代)所有状态键/值(比如每天一次) )并坚持使用HDFS / Cassandra?如果是这样,你能分享一个例子或提供任何可以支持这个的例子吗?

0 个答案:

没有答案