将HDFS文件读入字符串的最佳方法是什么?

时间:2016-06-25 20:48:31

标签: scala hadoop apache-spark hdfs

目前,我有以下代码。

h1

如您所见,我已经为缓冲区分配了4096个字节。现在,由于HDFS块是64 MB,分配64 MB的缓冲区会更好吗?考虑到我的HDFS文件大小>,写这个的最有效方法是什么? 64 MB。

1 个答案:

答案 0 :(得分:0)

您可以读取HDFS属性值以具有正确的缓冲区大小“ dfs.stream-buffer-size”。