我在mysql数据库中有一个包含312万行和10个字段/列的表。我正在尝试使用库(" RMySQL")将此数据导入R中,但这会导致我的桌面崩溃(配置8 GB RAM 64位运行Linux Mint 15的AMD双核处理器)是否有一种有效的方法可以将所有这些数据导入R?喜欢使用" ff"图书馆等?
答案 0 :(得分:3)
如果不使用某些“bigdata”软件包,它就不适合你的RAM。使用100万行和10列的矩阵进行快速演示:
> m <- matrix(runif(1e7), 1e6, 10)
> object.size(m) / 1024 / 1024
76.2941360473633 bytes
因此需要大约76 Mb的RAM。你的3.12亿行是这样的:
> object.size(m) / 1024 / 1024 * 312
23803.7704467773 bytes
大约24 Gb的RAM。
你真的需要在RAM中拥有所有这些数据吗?为什么不在MySQL内部子集或聚合并传递给R真正需要的东西?尝试dplyr。