如何从HDFS到R读取具有多张纸上的数据的Excel工作簿(.xlsx)?

时间:2019-05-09 19:18:31

标签: r hive hdfs

当前,我的脚本从本地驱动器上的excel工作簿中读取数据。该脚本运行并读取工作簿中的命名区域,并创建要在模型中使用的对象/参数。

展望未来,我们希望将这些数据移入HDFS并从Hive或HDFS读取数据。我在弄清楚如何将工作簿中的多张图纸从HDFS读取到R中以及如何将excel工作簿中的命名区域从HDFS读取到R中时遇到麻烦。

当前,这就是我的脚本从工作簿读取文件并从工作簿中的区域提取数据的方式。因此,例如,如果year等于2019,year.x将等于2019并保持单个值。

workbook <- XLConnect::loadWorkbook(workbook.xlsx)
year.x <- as.numeric(readNamedRegion(workbook, name = 'year', header = FALSE))

以前,我已经使用fread像这样从hdfs将csv文件读取到R中:

data <- fread("/usr/bin/hadoop fs -text /user/first.last/mock_data.csv")

我不知道如何从HDFS的excel工作簿中读取这些区域。

0 个答案:

没有答案