我想知道如何使用R脚本将驻留在hdfs中的.xlsx文件转换为.csv文件。
我尝试使用XLConnect和xlsx软件包,但它给我错误'找不到文件'。我使用上述软件包在R脚本中提供HDFS位置作为输入。我能够使用R从hdfs读取.csv文件脚本(read.csv())。
我是否需要安装任何新软件包来读取hdfs中的.xlsx文件。
分享我使用的代码:
library(XLConnect)
d1=readWorksheetFromFile(file='hadoop fs -cat hdfs://............../filename.xlsx', sheet=1)
“错误:FileNotFoundException(Java):找不到文件'filename.xlsx' - 如果不存在,您可以指定自动创建文件。”
我确定该文件存在于指定位置。
希望我的问题很明确。请提出解决方法。
提前致谢!
答案 0 :(得分:0)
hadoop fs
不是文件,而是命令,它将文件从HDFS复制到本地文件系统。从外部R运行此命令(或使用system
从内部运行),然后打开电子表格。