从PipelinedRDD过滤列

时间:2016-12-05 07:27:15

标签: python dataframe pyspark rdd

我有一个包含很多key:value对的pipelinedRDD,我只需要过滤掉其中的几个而忽略其余的。我怎样才能做到这一点?

示例RDD数据

{ 
"PLAN_ID": "7de7cc2d-95be-4b7f-bb2a-77482dc03853"
,"Week": "2017 Wk 11"
,"Demand": 0.0
,"Sales": 0.0
,"LostSales": 0.0
,"InventoryBOP": 0.0
,"InventoryEOP": 2666.0
,"Receipt": 2666.0
,"RecommendedReceipt": 2666.0
,"WeeksOnHand": 0.0
,"WeeksOfSales": 0.0}

我想只过滤PLAN_ID,Receipt,RecommendedReceipt,InventoryEOP,InventoryBOP。

请告诉我如何做到这一点,因为我无法弄清楚这一点。 很抱歉问了很多:(

0 个答案:

没有答案