嗯,我很好奇一个问题,如果不是世界末日,那将会有所帮助,也会节省时间。
我研究了一下,但我找不到我真正想要的东西。也, Running multiple R scripts/sessions 我检查了这个链接,但它再次对我没什么帮助。
情况是我有一个大数据集(我尝试使用的测试数据大约有6.5米行和50列,我也很难将数据集实现到R中,我现在使用60k行进行分析和统计(我试着看看如何操纵数据并理解它的行为,希望我希望将这些模型和操作集成到我用大数据集做的所有东西,即使不是全部6.5米行,1 2米都可以对我来说,如果可以的话。)
无论如何,另一个大问题是我的R环境。由于数据如此巨大,因此需要勤奋和繁重的工作。代码脚本就像3500行,它甚至不是工作的15%。问题在于创建新数据集,分配新模型,模型充分性检查和新模型等等。所有这些都让我在环境中花费了新的东西,我的环境就像750mb(R会话/配置文件)。如果我划分R脚本或环境,我希望我可以减少环境内容(配置文件)的大小。
任何想法都会很棒。适合任何帮助。
编辑:创建干净的脚本并启动干净的环境后,数据库实现发生时没有错误。以防遇到像我这样的实施问题的人。但是,并不是说这是唯一且准确的方法。
答案 0 :(得分:0)
对于这个问题,我通常会编写生成特定工作区的脚本,然后保留另一个脚本,其中包含所有脚本和已保存工作区的路径。
想象一下这个剧本:
## Dataset x
# Run script to create dataset x
source("pathtoscript.R")
# Save dataset x environment
save.image("pathtodatasetx.Rdata")
# Load dataset x environment
load("pathtodatasetx.Rdata")
这样,如果我做了任何更改,我就可以快速运行并保存环境,或者只是将其加载到我当前的会话中。