标签: apache-spark hadoop
在spark和hadoop的基本描述中,讨论了块大小和拆分。并行计算由具有工人处理不同的块中并行实现。
但如何做职工个人知道从哪个偏移开始?显然,它们不能刚读一个块HDFS ..因为这可能在大多数文件格式风险读取从损坏流,因为块大小和逻辑记录大小不对齐。
有,说明这一点的任何文档?谢谢!