标签: filter google-cloud-platform conditional bigdata
我有大型数据集,约有5亿个观测值。这些观察跨越了很多年。每个观察都包含一个日期和一个与观察位置相对应的ID。
我想删除观测第一年未包含的所有位置ID。我正在尝试找出最有效的方法。
我目前正在Google Cloud Platform中工作。我知道我可以在Pyspark中做到这一点,但是那将永远长久。有人有什么建议吗?