如何从凌乱的Excel图书中读取数据

时间:2018-10-08 05:16:17

标签: r excel csv data-analysis

我一直在处理来自医院的患者和财务数据。数据存储在.xlsx excel书籍中。每张纸中有多页水平和垂直拉伸。某些列具有您想要的R整齐定义的名称,但另一些列则没有或中间有文本,更不用说看起来是随机的了。有时 一个节的标题是将多行格式化为一个单行的结果。 不幸的是,由于机密性,我无法显示数据。当数据远没有整齐的格式时,是否有解决办法? 到目前为止,我一直在将数据复制并粘贴到新的CSV中。 虽然这很有效,但我觉得效率很低。这是最好的方法吗?

我们将不胜感激

谢谢

编辑

由于我无法显示数据,这是我能显示的最好的

嗨@Paul
所以让我举一个简单的例子

                 Jan   Feb  March   April
Income X    1      2      3           4
Income Y    2      4     4            6  
               Expenditure

                Jan    Feb    March    April                Another table here also
Expense   1        3         5           7
Expense   5       6          7           8

(Excel Bar chart)

1 个答案:

答案 0 :(得分:0)

看看readxl包,范围选项可能就是您想要的:

library(readxl)

df1 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "A1:D3")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

df2 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "B6:E8")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8