应用错误收集

Apache Spark流式传输大量csv文本文件，其标题包含重要信息

时间：2018-09-07 05:52:46

标签： apache-spark pyspark pyspark-sql

我需要流传输大量csv文件作为源，每个文件都包含一个标头，其中包含重要信息，用于对随后的其余数据进行分类。

构建流解决方案的最佳方法是什么，该解决方案将在apache spark的分布式处理系统下针对每行包含标头数据？

问题可能是如果文件处理被拆分，那么任何执行者都可以选择标头。

1 个答案:

答案 0 :(得分：0)

我将使消息创建和消息处理脱钩，其中message表示所需的标题和行的组合。

您可以使用Kafka（例如https://github.com/dpkp/kafka-python）来构建此类消息，将其发布到主题，然后在pyspark应用程序中订阅该主题以进行处理