使用Spark从HDFS读取文件

时间:2018-08-10 12:24:37

标签: python pyspark hdfs

我有下面的代码从本地驱动器读取文件,但是我希望它从hdfs的文件夹中读取文件。我想使用sc.textfile方法,但是正确地初始化它有点卡住。你能帮忙吗?

session = SparkSession.builder.appName('myapp')
session = session.master ('local').getOrCreate()
sql_context = SQLContext(session.SparkContext)
sql_context.sql("SET spark.sql.autoBroadcastJoinThreshold=-1")
cwd=os.getcwd()

names=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(nameid)
classes=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(classid)

1 个答案:

答案 0 :(得分:0)

您为什么不继续进行会话/火花?

df_load = sparkSession.read.csv('hdfs://cluster/user/hdfs/test/*.csv')