如何在spark中打印python中的rdd

时间:2015-10-09 00:15:57

标签: python apache-spark pyspark apache-spark-sql

我在HDFS上有两个文件,我只想在一个列上说这个两个文件加上员工ID。

我正在尝试简单地打印文件以确保我们正在从HDFS中正确读取。

lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()

我也尝试过foreach和println函数,但我无法显示文件数据。 我在python中工作,对python和spark都是全新的。

1 个答案:

答案 0 :(得分:12)

这真的很容易做collect 您必须确保所有数据都适合您主人的内存

Scanner

如果不是这种情况您必须使用take方法取样。

my_rdd = sc.parallelize(xrange(10000000))
print my_rdd.collect()

使用.ipynb的另一个例子: