嗨,我正在尝试使用pyarrow Hadoop File System Interface中的上载方法将csv文件上载到我的HDFS集群:
import pyarrow as pa
fs = pa.hdfs.connect(host, port, user)
with open('test.csv') as f:
pa.hdfs.HadoopFileSystem.upload(fs, '/data/test.csv', f)
出于某种原因,这总是将带有0B的空文件上传到pyarrow版本0.15.1的HDFS中。但是,当降级为pyarrow版本0.10.0时,文件将正确上传。
我正在使用HDFS版本2.7.3
答案 0 :(得分:1)
应该是:
with open('test.csv','rb') as f:
这可能是因为文件包含一些非Unicode字符,因此需要将其读取为二进制文件。