Apache Spark流式传输大量csv文本文件,其标题包含重要信息

时间:2018-09-07 05:52:46

标签: apache-spark pyspark pyspark-sql

我需要流传输大量csv文件作为源,每个文件都包含一个标头,其中包含重要信息,用于对随后的其余数据进行分类。

构建流解决方案的最佳方法是什么,该解决方案将在apache spark的分布式处理系统下针对每行包含标头数据?

问题可能是如果文件处理被拆分,那么任何执行者都可以选择标头。

1 个答案:

答案 0 :(得分:0)

我将使消息创建和消息处理脱钩,其中message表示所需的标题和行的组合。

您可以使用Kafka(例如https://github.com/dpkp/kafka-python)来构建此类消息,将其发布到主题,然后在pyspark应用程序中订阅该主题以进行处理