在pyspark RDD中,'predict_values'是逻辑回归结果的关键。显然,'predict_values'只有0和1。
我想计算输出字段中0和1的数量。
我试试:
Counter(rdd.groupByKey()['predicted_value'])
给出了
TypeError: 'PipelinedRDD' object is not subscriptable
这样做的最佳方式是什么?
答案 0 :(得分:2)
您也可以使用countByValue()
:
sorted(rdd.map(lambda x: x['predicted_value']).countByValue().items())
#[(0, 580), (1, 420)]
答案 1 :(得分:0)
看来这可以通过(使用collection
中的Counter类)来完成:
>>> Counter([i['predicted_value'] for i in rdd.collect()]
Counter({0: 580, 1: 420})