在任何给定的月份,我都可以访问数亿行的某些数据。 3个功能:代表日期的字符串,代表类型的字符串和代表金额的值。
可以访问python和impala(SQL),什么是计算每月每种类型的数百万行的中位数的最佳方法?
如果我使用一个简单的group by:日期部分的类型和子串来获取月份,例如substring(date,1,4),并对中位数使用APPX_MEDIAN函数,我最终会用光内存Impala查询。
如果我尝试将原始数据记为CSV(例如,使用DBeaver),那么它会很大-GB的大小太大,无法容纳我可以访问的VM的内存,如果我尝试尝试,它将保存CSV将其推入python pandas数据框。
我对处理大数据的模式并不熟悉,因此任何技巧都将不胜感激。由于数据量巨大,我正在努力执行简单的计算。
答案 0 :(得分:1)
您可以通过指定SET MEM_LIMIT=Xg
来尝试增加Impala用于执行查询的内存量,其中X是