标签: python apache-spark pyspark apache-spark-sql
我在HDFS上有两个文件,我只想在一个列上说这个两个文件加上员工ID。
我正在尝试简单地打印文件以确保我们正在从HDFS中正确读取。
lines = sc.textFile("hdfs://ip:8020/emp.txt") print lines.count()
我也尝试过foreach和println函数,但我无法显示文件数据。 我在python中工作,对python和spark都是全新的。
答案 0 :(得分:12)
这真的很容易做collect 您必须确保所有数据都适合您主人的内存
Scanner
如果不是这种情况您必须使用take方法取样。
my_rdd = sc.parallelize(xrange(10000000)) print my_rdd.collect()
使用.ipynb的另一个例子: