R等同于Python的快捷方式

时间:2018-06-27 18:24:14

标签: python r dask

R中是否有与Python的dask等效的软件包?专门用于在一台机器上对大于内存的数据集运行机器学习算法。

链接到Python的Dask页: https://dask.pydata.org/en/latest/

在Dask网站上:

  

Dask原生可扩展Python

     

Dask为分析提供了高级并行性,从而提高了性能   大规模使用您喜欢的工具

     

Dask的调度程序可扩展到数千个节点的群集及其算法   已经在世界上一些最大的超级计算机上进行了测试。

     

但是您不需要庞大的集群即可开始。达斯克附带   专为在个人计算机上使用而设计的调度程序。很多人使用Dask   今天可以在笔记本电脑上扩展计算,使用多个内核   计算及其磁盘以用于多余的存储空间。

2 个答案:

答案 0 :(得分:2)

通常,R在其本机用途中对RAM中的数据进行操作。根据您的操作系统,当R需要的空间超过可用内存时,部分数据将换出到磁盘上。正常的结果是抖动,这会使您的计算机停止运行。在Windows中,您可以观看任务管理器并哭泣。

有一些软件包可以管理此过程。 Microsoft的RevoScaleR是其中之一。它不是开源的,不能从CRAN获得。我对R上的软件附加件持怀疑态度,认为它们可以保证您的汽车具有更好的燃油经济性。总是要权衡。

简单的答案是R中没有免费的午餐。对于您的计算机而言,下载不如某些新的DIMM有效。您最好先看一下代码。如果这不起作用,请在云中租用适当大小的配置。

答案 1 :(得分:2)

我正在开发一个名为disk.frame的简单库,它有一天可以使用dask。它使用fst文件格式和data.table来操纵磁盘上的大量数据。到目前为止,它还没有群集模块,但是考虑到它在后台使用future并且future可以具有群集后端,因此将来有可能。

Hadley and co。的作品中也有multidplyr

当前,我已经成功地使用disk.frame来处理具有数亿行数据和数百列的数据集。

如果您愿意超越R,那么Julia生态系统中的JuliaDB.jl是值得关注的。