应用错误收集

我的目标是：

为了确定我在做什么，我正在尝试使用spark-shell在本地运行它。每隔1-2秒使用python脚本生成POS日志XML文件。批处理间隔设置为15秒 val ssc = new StreamingContext(sc, Seconds(15));

将XML流设置为：val xml_stream = ssc.fileStream(PATH);

如何有效地将xml_stream转换为Spark-DataFrame？

我遇到了这个spark-xml包。但是，它对在XML文件生成的Dstream上使用它没有太多想法。

我现在正在使用scala，因为pySpark仅支持textFileStream。