我正在研究R上的时间序列预测项目。但是,我需要从Hadoop环境中的表中获取数据。我正在使用Sparklyr到达这些表。但是在完成数据传输后,我意识到了一个奇怪的问题。
我的日期列移动了一天,我在代表26.03.2017的行中看到了27.03.2017的数据。
sc <- spark_connect(master = "yarn-client",
spark_home = "/usr/hdp/current/spark2-client/",
config = conf)
invoke(hive_context(sc), "sql", "USE mydb")
data <- tbl(sc, 'mydata_raw')
data.df <- data.frame(data)
filter(data.df, date == "2018-05-05")
date unit
<date> <int>
1 2018-05-04 1111
在我的蜂巢表中没有这样的问题。