我的目标是:
为了确定我在做什么,我正在尝试使用spark-shell
在本地运行它。每隔1-2秒使用python脚本生成POS日志XML文件。
批处理间隔设置为15秒
val ssc = new StreamingContext(sc, Seconds(15));
将XML流设置为:val xml_stream = ssc.fileStream(PATH);
如何有效地将xml_stream
转换为Spark-DataFrame
?
我遇到了这个spark-xml包。但是,它对在XML文件生成的Dstream
上使用它没有太多想法。
我现在正在使用scala
,因为pySpark
仅支持textFileStream。