如何使用rdd选择随机出现在rdd中的多个列

时间:2019-07-02 15:43:05

标签: apache-spark pyspark rdd

我有一个RDD,其中包含约15列。我想创建一个具有8列的RDD。所有8列均随机出现在数据集或RDD1中。如何使用Map API选择这些列?

原始数据包含以下列

['pid,encounter_nr,addr_str,addr_str_nr,addr_zip,date_birth,sex,bill_item_bill_no,bill_item_code,bill_item_desc,bill_item_units,bill_item_amount,bill_item_date,state,district,country']

必填列是

('pid','encounter_nr','sex','date_birth','addr_zip','bill_item_code','bill_item_desc','bill_item_amount','bill_item_date')

0 个答案:

没有答案