R中是否有与Python的dask
等效的软件包?专门用于在一台机器上对大于内存的数据集运行机器学习算法。
链接到Python的Dask
页:
https://dask.pydata.org/en/latest/
在Dask网站上:
Dask原生可扩展Python
Dask为分析提供了高级并行性,从而提高了性能 大规模使用您喜欢的工具
Dask的调度程序可扩展到数千个节点的群集及其算法 已经在世界上一些最大的超级计算机上进行了测试。
但是您不需要庞大的集群即可开始。达斯克附带 专为在个人计算机上使用而设计的调度程序。很多人使用Dask 今天可以在笔记本电脑上扩展计算,使用多个内核 计算及其磁盘以用于多余的存储空间。
答案 0 :(得分:2)
通常,R在其本机用途中对RAM中的数据进行操作。根据您的操作系统,当R需要的空间超过可用内存时,部分数据将换出到磁盘上。正常的结果是抖动,这会使您的计算机停止运行。在Windows中,您可以观看任务管理器并哭泣。
有一些软件包可以管理此过程。 Microsoft的RevoScaleR是其中之一。它不是开源的,不能从CRAN获得。我对R上的软件附加件持怀疑态度,认为它们可以保证您的汽车具有更好的燃油经济性。总是要权衡。
简单的答案是R中没有免费的午餐。对于您的计算机而言,下载不如某些新的DIMM有效。您最好先看一下代码。如果这不起作用,请在云中租用适当大小的配置。
答案 1 :(得分:2)
我正在开发一个名为disk.frame
的简单库,它有一天可以使用dask
。它使用fst
文件格式和data.table
来操纵磁盘上的大量数据。到目前为止,它还没有群集模块,但是考虑到它在后台使用future
并且future
可以具有群集后端,因此将来有可能。
Hadley and co。的作品中也有multidplyr。
当前,我已经成功地使用disk.frame来处理具有数亿行数据和数百列的数据集。
如果您愿意超越R,那么Julia生态系统中的JuliaDB.jl是值得关注的。