我目前在R中进行了大量的描述性分析。我总是使用像df
这样的data.table
net <- seq(1,20,by=2)
gross <- seq(2,20,by=2)
color <- c("green", "blue", "white")
height <- c(170,172,180,188)
library(data.table)
df <- data.table(net,gross,color,height)
为了获得结果,我确实应用了很多过滤器。 有时我使用一个过滤器,有时我使用多个过滤器的组合,例如:
df[color=="green" & height>175]
在我的真实data.table中,我有7列和所有类型的过滤器组合。 由于我总是处理相同的data.table,我想找到最有效的方法来过滤数据。
到目前为止,我的文件组织如下(自下而上):
XL Connect
df_green_high
。通过过滤,过滤文件创建一个
新的data.table并使用这个新的过滤表来源“源文件”。我目前面临挑战,因为我有太多的过滤器文件。有7个变量,有这么多的过滤器组合,所以我迟早会迷路。
如何更有效地进行分析(减少“过滤文件”的数量?)
如何根据使用的过滤器方便地命名导出的文件?
我已阅读Workflow for statistical analysis and report writing和其他一些类似的问题。但是,在这种情况下,我总是引用相同的基本表,因此应该有一种更有效的方法。我没有CS背景,所以任何帮助都非常感谢。在SOF上,我也读过有关创建package
的内容,但我不确定这是否合理。
答案 0 :(得分:1)
我通常这样做:
尽可能自动化流程。