火花,怎么办工人们知道的偏移,从文件中开始处理?

时间:2019-02-02 15:41:56

标签: apache-spark hadoop

在spark和hadoop的基本描述中,讨论了块大小和拆分。并行计算由具有工人处理不同的块中并行实现。

但如何做职工个人知道从哪个偏移开始?显然,它们不能刚读一个块HDFS ..因为这可能在大多数文件格式风险读取从损坏流,因为块大小和逻辑记录大小不对齐。

有,说明这一点的任何文档?谢谢!

0 个答案:

没有答案