用逗号火花RDD分割

时间:2018-02-04 23:44:19

标签: csv apache-spark rdd

我有一个csv文件,想用spark RDD打开它

111,rock,sf,"recently,promoted"

我将其与vals = line.split(',')

分开

但这也将分裂,例如“最近,促进”。我想保持“最近,提升”,而不是拆分它。

我怎么做?

由于 萨拉

这正是我正在做的事情

def createKeyValue(line):
    vals = line.split(',')
    return(vals[7])

rows = csvdata.map(createKeyValue)

0 个答案:

没有答案