我已经阅读了这个问题的各种变体及其相关答案,但没有运气,因为我对如何解决我的特定问题感到兴奋。我相信对此的回答对其他人也有用。
我试图定义一种概念方法,使用Hadoop流式框架内的Python mapper和reducer计算单个字段中一系列数字的中值。
假设我们有一个包含20个字段和400万行的csv。我们如何计算字段的中位数,让它称之为number
,其中包含一个值(例如307, 212, 719, 2123, 77, 398
等)?
我知道使用纯Python和Pandas的几种方法,但它们不能在Hadoop流式框架内进行翻译。谢谢。