标签: hadoop pyspark jupyter-notebook
我从Hadoop中选择了4月最后一天,5月整个月和6月1日的数据;
examplefile.avro / 20190 {430,5,601} *“)。cache()
我想提取类似数据用于2018年12月的最后一天,2019年1月的整个月以及2019年2月的第一天,但是因为我必须包括2018年的12月,然后包括2019年的1月和第一天的数据在2月,我不确定如何调整代码来满足此要求。