Question

嗨，我正在尝试使用pyarrow Hadoop File System Interface中的上载方法将csv文件上载到我的HDFS集群：

import pyarrow as pa

fs = pa.hdfs.connect(host, port, user)
with open('test.csv') as f:
   pa.hdfs.HadoopFileSystem.upload(fs, '/data/test.csv', f)

出于某种原因，这总是将带有0B的空文件上传到pyarrow版本0.15.1的HDFS中。但是，当降级为pyarrow版本0.10.0时，文件将正确上传。

我正在使用HDFS版本2.7.3

Answer 1

应该是：

with open('test.csv','rb') as f:

这可能是因为文件包含一些非Unicode字符，因此需要将其读取为二进制文件。