大数据的Impala中位数计算

时间:2018-07-17 20:14:47

标签: python pandas impala median impyla

在任何给定的月份,我都可以访问数亿行的某些数据。 3个功能:代表日期的字符串,代表类型的字符串和代表金额的值。

可以访问python和impala(SQL),什么是计算每月每种类型的数百万行的中位数的最佳方法?

如果我使用一个简单的group by:日期部分的类型和子串来获取月份,例如substring(date,1,4),并对中位数使用APPX_MEDIAN函数,我最终会用光内存Impala查询。

如果我尝试将原始数据记为CSV(例如,使用DBeaver),那么它会很大-GB的大小太大,无法容纳我可以访问的VM的内存,如果我尝试尝试,它将保存CSV将其推入python pandas数据框。

我对处理大数据的模式并不熟悉,因此任何技巧都将不胜感激。由于数据量巨大,我正在努力执行简单的计算。

1 个答案:

答案 0 :(得分:1)

您可以通过指定SET MEM_LIMIT=Xg来尝试增加Impala用于执行查询的内存量,其中X是每个Impala守护程序的GB内存。有关更多详细信息,请参见https://impala.apache.org/docs/build/html/topics/impala_mem_limit.html