我正在尝试使用RStudio Server亚马逊机器映像(AMI)的AWS r3.4xlarge实例。
ubuntu@ip:~$ free -m
total used free shared buffers cached
Mem: 122953 8394 114558 0 13 232
-/+ buffers/cache: 8148 114804
Swap: 1023 0 1023
ubuntu@ip:~$
对于122GB RAM和16vCPU,我认为R对于中型数据集来说真的很快。但是,当我在具有10M行和21列(german data复制1,000次)的数据集上运行rpart()
时,R仅使用8.3 GB
这是ulimit -a
:
ubuntu@ip:~$ ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 983543
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 983543
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
rpart
现在运行超过30分钟,我想知道为什么。这是CPU密集型任务吗?从htop看起来并非如此:
rpart()
现在完成了!有没有办法如何使它更快或使用rpart
时无法避免这种缓慢?