我需要流传输大量csv
文件作为源,每个文件都包含一个标头,其中包含重要信息,用于对随后的其余数据进行分类。
构建流解决方案的最佳方法是什么,该解决方案将在apache spark的分布式处理系统下针对每行包含标头数据?
问题可能是如果文件处理被拆分,那么任何执行者都可以选择标头。
答案 0 :(得分:0)
我将使消息创建和消息处理脱钩,其中message表示所需的标题和行的组合。
您可以使用Kafka(例如https://github.com/dpkp/kafka-python)来构建此类消息,将其发布到主题,然后在pyspark应用程序中订阅该主题以进行处理