使用Hadoop流和Python

时间:2016-03-27 18:41:28

标签: python hadoop median

我已经阅读了这个问题的各种变体及其相关答案,但没有运气,因为我对如何解决我的特定问题感到兴奋。我相信对此的回答对其他人也有用。

我试图定义一种概念方法,使用Hadoop流式框架内的Python mapper和reducer计算单个字段中一系列数字的中值。

假设我们有一个包含20个字段和400万行的csv。我们如何计算字段的中位数,让它称之为number,其中包含一个值(例如307, 212, 719, 2123, 77, 398等)?

我知道使用纯Python和Pandas的几种方法,但它们不能在Hadoop流式框架内进行翻译。谢谢。

0 个答案:

没有答案