试图将此数据流化,并且无法以元组的形式将该数据保存在本地磁盘或hdfs中。 从pyspark导入SparkConf,SparkContext
new Type[] { type, orderByExpression.ReturnType },
答案 0 :(得分:1)
在这一行:
kvs.saveAsTextFiles('path','txt')
您正在存储原始流,而不是存储元组的原始流。从计数存储:
counts.saveAsTextFiles('path','txt')
对保存在“路径”中提供的目录下的工作节点上的文件感到好奇。
pySpark API不支持保存到HDFS,因为最新版本,其他语言也具有 saveAsHadoopFiles 。链接到doc。