应用错误收集

在任何给定的月份，我都可以访问数亿行的某些数据。 3个功能：代表日期的字符串，代表类型的字符串和代表金额的值。

可以访问python和impala（SQL），什么是计算每月每种类型的数百万行的中位数的最佳方法？

如果我使用一个简单的group by：日期部分的类型和子串来获取月份，例如substring（date，1,4），并对中位数使用APPX_MEDIAN函数，我最终会用光内存Impala查询。

如果我尝试将原始数据记为CSV（例如，使用DBeaver），那么它会很大-GB的大小太大，无法容纳我可以访问的VM的内存，如果我尝试尝试，它将保存CSV将其推入python pandas数据框。

我对处理大数据的模式并不熟悉，因此任何技巧都将不胜感激。由于数据量巨大，我正在努力执行简单的计算。