Question

我必须读取HDFS中的文件并将其转换为数据帧。我正在做以下步骤。但无法继续。需要一些帮助。

from pyspark.sql import SparkSession
stock1 = spark.read.csv("/FileStore/tables/stockdata/companylist_noheader.csv")

当我这样做时，我得到以下输出

但实际的csv文件如下所示 The input

请建议。我知道我们有一个|分隔，但当我使用地图功能时，我得到以下错误 attributeError：＆＃39; DataFrame＆＃39;对象没有属性＆＃39; map＆＃39;

Answer 1

将DataFrame转换为RDD后再使用地图转换。

您无法映射DataFrame，但可以将DataFrame转换为RDD。通过执行yourdf.rdd.map(....)

来映射

这就是你遇到的原因

attributeError: 'DataFrame' object has no attribute 'map'