从HDFS读取文件-pyspark

时间:2019-07-19 12:02:11

标签: python apache-spark pyspark

我是Pyspark的新手,执行以下代码时,出现属性错误。

我正在使用Apache Spark 2.4.3

t=spark.read.format("hdfs:\\test\a.txt")
t.take(1)

我希望输出为1,但会引发错误。

AttributeError: dataframereader object has no attribute take

1 个答案:

答案 0 :(得分:0)

您没有正确使用API​​:

  • format用于指定要读取的输入数据源格式。

  • 此外,您在声明新变量时需要添加键盘val

在这里,您正在读取文本文件,因此您所要做的就是:

val t = spark.read.text("hdfs://test/a.txt")
t.collect()

查看相关的doc