我使用spark-stream来传输推文,而Cassandra则通过Unix时间戳保存它们。我分析正面,负面的句子并每天计算
问题: 处理来自不同时区的数据很困难。 GMT + 7的一天开始与GMT + 12的一天开始非常不同。
示例
(我很抱歉信息很难解释)
在UTC =>开始的日子是2017-03-21T16:50:00Z所以我可以算上一句话 在一天结束前7小时10分钟
但在某个时区(同一时间)=>开始日期是2017-03-21T23:53:00Z 所以我可以在一天结束前的7分钟内计算句子
我想我通过每个时区创建一个表来解决这个问题,我认为这不是最好的解决方案。
有更好的解决方案吗?