我必须读取HDFS中的文件并将其转换为数据帧。我正在做以下步骤。但无法继续。需要一些帮助。
from pyspark.sql import SparkSession
stock1 = spark.read.csv("/FileStore/tables/stockdata/companylist_noheader.csv")
当我这样做时,我得到以下输出
但实际的csv文件如下所示 The input
请建议。我知道我们有一个|分隔,但当我使用地图功能时,我得到以下错误 attributeError:' DataFrame'对象没有属性' map'
答案 0 :(得分:1)
将DataFrame
转换为RDD
后再使用地图转换。
您无法映射DataFrame
,但可以将DataFrame
转换为RDD。通过执行yourdf.rdd.map(....)
这就是你遇到的原因
attributeError: 'DataFrame' object has no attribute 'map'