在数据框上占用CSV。使用pyspark

时间:2018-01-31 11:39:52

标签: apache-spark pyspark apache-spark-sql spark-dataframe

我必须读取HDFS中的文件并将其转换为数据帧。我正在做以下步骤。但无法继续。需要一些帮助。

from pyspark.sql import SparkSession
stock1 = spark.read.csv("/FileStore/tables/stockdata/companylist_noheader.csv")

当我这样做时,我得到以下输出

The output

但实际的csv文件如下所示 The input

请建议。我知道我们有一个|分隔,但当我使用地图功能时,我得到以下错误 attributeError:' DataFrame'对象没有属性' map'

1 个答案:

答案 0 :(得分:1)

DataFrame转换为RDD后再使用地图转换。

您无法映射DataFrame,但可以将DataFrame转换为RDD。通过执行yourdf.rdd.map(....)

来映射

这就是你遇到的原因

attributeError: 'DataFrame' object has no attribute 'map'