如何将Spark Streaming保存到本地PC和HDFS?

时间:2019-03-22 09:02:37

标签: python pyspark apache-kafka hdfs spark-streaming

试图将此数据流化,并且无法以元组的形式将该数据保存在本地磁盘或hdfs中。     从pyspark导入SparkConf,SparkContext

new Type[] { type, orderByExpression.ReturnType },

1 个答案:

答案 0 :(得分:1)

在这一行:

 kvs.saveAsTextFiles('path','txt')

您正在存储原始流,而不是存储元组的原始流。从计数存储:

 counts.saveAsTextFiles('path','txt')

对保存在“路径”中提供的目录下的工作节点上的文件感到好奇。

pySpark API不支持

保存到HDFS,因为最新版本,其他语言也具有 saveAsHadoopFiles 。链接到doc