Question

我在HDFS上有两个文件，我只想在一个列上说这个两个文件加上员工ID。

我正在尝试简单地打印文件以确保我们正在从HDFS中正确读取。

lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()

我也尝试过foreach和println函数，但我无法显示文件数据。我在python中工作，对python和spark都是全新的。

Answer 1

这真的很容易做collect 您必须确保所有数据都适合您主人的内存

Scanner

如果不是这种情况您必须使用take方法取样。

my_rdd = sc.parallelize(xrange(10000000))
print my_rdd.collect()

使用.ipynb的另一个例子：