Question

试图将此数据流化，并且无法以元组的形式将该数据保存在本地磁盘或hdfs中。从pyspark导入SparkConf，SparkContext

new Type[] { type, orderByExpression.ReturnType },

Answer 1

在这一行：

 kvs.saveAsTextFiles('path','txt')

您正在存储原始流，而不是存储元组的原始流。从计数存储：

 counts.saveAsTextFiles('path','txt')

对保存在“路径”中提供的目录下的工作节点上的文件感到好奇。

pySpark API不支持

保存到HDFS，因为最新版本，其他语言也具有 saveAsHadoopFiles 。链接到doc。