我们有批处理管道将文件(主要是csv)写入s3存储桶。这些管道中的一些每分钟写入一次,其中一些每5分钟写入一次。当前,我们有一个批处理应用程序,它每小时运行一次,处理这些文件。
企业希望每5分钟获得一次数据。相反,我们决定不使用每5分钟运行一次批处理作业,而是使用apache spark结构化流技术并实时处理数据。我的问题是生产这种解决方案有多么容易/困难?
我唯一担心的是,如果检查点位置损坏,删除检查点目录将重新处理最近1年的数据。有没有人使用s3通过Spark结构化流技术来生产任何解决方案,或者您认为flink在这种使用情况下更好?
如果您认为有解决此问题的更好的体系结构/模式,请向我指出正确的方向。
ps:我们已经考虑过将这些文件放入kafka,并且由于带宽的可用性和文件的大尺寸而被排除在外。
答案 0 :(得分:0)
我找到了一种方法,而不是最有效的方法。由于我们之前已经生产过基于Kafka的解决方案,因此可以使用s3流和lambda将事件推送到Kafka中。该事件将仅包含元数据,例如文件位置和大小。
这将使spark程序更具挑战性,因为将在执行程序内部读取和处理文件,这实际上没有利用分布式处理。否则,请读入执行程序并将数据返回给驱动程序,以利用Spark的分布式处理。这将需要在内存方面更好地计划spark应用,因为'cos输入文件的大小会发生很大变化。