希望您一切都好。
我们目前正在解决一个问题,我们需要流式传输eml文件的文件夹。分别读取每个eml,然后使用apark的分布式处理将其转换为json格式。
这样做,我们得到了DStream并尝试从中取出RDD,但是在寻找如何将同一文件的所有rdds合并到一起以转换为json的过程中陷入了困境。考虑到它是分布式模型,也许我们正在尝试解决将完整文件作为一个文件读取的局限性不同的问题。另一方面,我们正在尝试以某种方式使事情正常运行的逻辑,从而优化了解析。对此的任何帮助都将受到高度赞赏。
PS:我们已经从文件夹中流式传输了json,并通过模式定义,能够将每个文件作为单独的记录获取。想知道是否可以对eml文件执行相同的操作?