Spark Streaming XML文件并将它们转换为DataFrames

时间:2017-11-07 10:51:57

标签: xml scala xml-parsing spark-streaming spark-structured-streaming

我的目标是:

  1. 使用Spark
  2. 从Kafka主题或任何其他HDFS流式传输POS日志(XML文件)
  3. 将流数据转换为Spark DataFrame
  4. 分析并将结果Dataframe存储为csv。
  5. 为了确定我在做什么,我正在尝试使用spark-shell在本地运行它。每隔1-2秒使用python脚本生成POS日志XML文件。 批处理间隔设置为15秒 val ssc = new StreamingContext(sc, Seconds(15));

    将XML流设置为:val xml_stream = ssc.fileStream(PATH);

    如何有效地将xml_stream转换为Spark-DataFrame

    我遇到了这个spark-xml包。但是,它对在XML文件生成的Dstream上使用它没有太多想法。

    我现在正在使用scala,因为pySpark仅支持textFileStream。

0 个答案:

没有答案