我正在尝试使用rhdfs库从R读取一些HDFS文件(csv文本)。我正在使用以下代码:
hdfs.init()
f = hdfs.file(hdfspath,"r")
m = hdfs.read(f)
> object.size(m)
131112 bytes
当我检查从HDFS读取的对象的大小时,会出现问题。我只阅读HDFS文件系统中的一小部分记录。无论原始HDFS文件的大小,我只得到131112字节(或大约2 ^ 17字节)。我试过更改buffersize参数但没有成功。是否应该设置任何特定参数?
我在这里找到了类似的问题[1],但没有答案。
任何提示都将不胜感激。
答案 0 :(得分:0)
我设法通过指定我想要读取的字节数和要启动的字节(参数“n”和“start”)来解决它。似乎需要显式设置这些参数才能读取整个文件。
f = hdfs.file(hdfspath,"r")
m = hdfs.read(f, start = 0, n = hdfs.ls(hdfspath)$size)
“hdfspath”指向HDFS文件。