有条件地有效过滤大型数据集

时间:2019-03-19 05:23:54

标签: filter google-cloud-platform conditional bigdata

我有大型数据集,约有5亿个观测值。这些观察跨越了很多年。每个观察都包含一个日期和一个与观察位置相对应的ID。

我想删除观测第一年未包含的所有位置ID。我正在尝试找出最有效的方法。

我目前正在Google Cloud Platform中工作。我知道我可以在Pyspark中做到这一点,但是那将永远长久。有人有什么建议吗?

0 个答案:

没有答案