应用错误收集

我已经阅读了这个问题的各种变体及其相关答案，但没有运气，因为我对如何解决我的特定问题感到兴奋。我相信对此的回答对其他人也有用。

我试图定义一种概念方法，使用Hadoop流式框架内的Python mapper和reducer计算单个字段中一系列数字的中值。

假设我们有一个包含20个字段和400万行的csv。我们如何计算字段的中位数，让它称之为number，其中包含一个值（例如307, 212, 719, 2123, 77, 398等）？

我知道使用纯Python和Pandas的几种方法，但它们不能在Hadoop流式框架内进行翻译。谢谢。