apache-spark - 火花，怎么办工人们知道的偏移，从文件中开始处理？ - Thinbug

火花，怎么办工人们知道的偏移，从文件中开始处理？

时间：2019-02-02 15:41:56

标签： apache-spark hadoop

在spark和hadoop的基本描述中，讨论了块大小和拆分。并行计算由具有工人处理不同的块中并行实现。

但如何做职工个人知道从哪个偏移开始？显然，它们不能刚读一个块HDFS ..因为这可能在大多数文件格式风险读取从损坏流，因为块大小和逻辑记录大小不对齐。

有，说明这一点的任何文档？谢谢！

0 个答案:

没有答案