标签: azure hadoop hdinsight
如果我使用ASV存储HDInsight的文件,然后编写MapReduce函数,系统是否会在分割出整个数据线时将这些文件整齐地拆分出来以供集群处理?是否需要特殊的东西来确保文件中的一行数据不会跨越文件块的边界而变得不可读,因为它的一部分被传递到一个数据节点并且部分传递到另一个数据节点?
如果是这样,它是如何做到的?
答案 0 :(得分:0)
我在其他地方找到了答案,是的,HDInsight系统从分布式文件系统中读取了一步,它将协商每个片段文件中完整行的结束。