将magic.wand函数用于代码块

时间:2015-11-16 13:19:47

标签: r hadoop parallel-processing dplyr

我想使用plyrmr包,同时保持我在dplyr中编写的现有代码,因此我想使用“magic.wand”函数。我使用“mtcars”数据集是为了简单,它的路径是HDFS(Hadoop分布式文件系统)上的“/ user / sgerony / mtcars2”。

代码块包含基本函数,但也包含dplyr函数,这是我的代码:

magic.wand(rename,TRUE)
filename <- "/user/sgerony/mtcars"
complex.function = function(x){
  x$carb <- x[,ncol(x)]*2 
  x$carb <- x$carb+2
  x <- as.data.frame(rename(x, lol=carb))
  return(x)
}
magic.wand(complex.function)
# does NOT work
input(filename) %|% complex.function()

结果(注意:行名已消失)

    mpg cyl  disp  hp drat    wt  qsec vs am gear lol
1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4  10
2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4  10
3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4   4
4  21.4   6 258.0 110 3.08 3.215 19.44  1  0    3   4
5  18.7   8 360.0 175 3.15 3.440 17.02  0  0    3   6
6  18.1   6 225.0 105 2.76 3.460 20.22  1  0    3   4
7  14.3   8 360.0 245 3.21 3.570 15.84  0  0    3  10
8  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4   6
9  22.8   4 140.8  95 3.92 3.150 22.90  1  0    4   6
10 19.2   6 167.6 123 3.92 3.440 18.30  1  0    4  10
11 17.8   6 167.6 123 3.92 3.440 18.90  1  0    4  10
12 16.4   8 275.8 180 3.07 4.070 17.40  0  0    3   8
13 17.3   8 275.8 180 3.07 3.730 17.60  0  0    3   8
14 15.2   8 275.8 180 3.07 3.780 18.00  0  0    3   8
15 10.4   8 472.0 205 2.93 5.250 17.98  0  0    3  10
16 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3  10
17 14.7   8 440.0 230 3.23 5.345 17.42  0  0    3  10
18 32.4   4  78.7  66 4.08 2.200 19.47  1  1    4   4
19 30.4   4  75.7  52 4.93 1.615 18.52  1  1    4   6
20 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4   4
21 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3   4
22 15.5   8 318.0 150 2.76 3.520 16.87  0  0    3   6
23 15.2   8 304.0 150 3.15 3.435 17.30  0  0    3   6
24 13.3   8 350.0 245 3.73 3.840 15.41  0  0    3  10
25 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3   6
26 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4   4
27 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5   6
28 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5   6
29 15.8   8 351.0 264 4.22 3.170 14.50  0  1    5  10
30 19.7   6 145.0 175 3.62 2.770 15.50  0  1    5  14
31 15.0   8 301.0 335 3.54 3.570 14.60  0  1    5  18
32 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4   6

问题1:这是正确的方法吗?我是否必须第一次调用dplyr函数的magic.wand然后调用代码块?

问题2:为什么我不能像这样调用magic.wand函数?

magic.wand(dplyr::rename,TRUE)

结果:

> magic.wand(dplyr::rename,TRUE)
Error in match.fun(paste0(f.name, "_")) : 
  'paste0(c("::", "dplyr", "rename"), "_")' is not a function, character or symbol

详细信息:它创建名称为“::”,“::。data.frame”,“::。default”,“plyr”,“rename”的函数

是否有必要确保我们没有使用多个库中包含的函数?

问题3:为什么我必须将“TRUE”作为第一个magic.wand调用的第二个参数而不是最后一个?

filename<-"/user/sgerony/mtcars"
magic.wand(rename,TRUE)
filename <- "/user/sgerony/mtcars"
complex.function = function(x){
  x$carb <- x[,ncol(x)]*2 
  x$carb <- x$carb+2
  x <- as.data.frame(rename(x, lol=carb))
  return(x)
}
magic.wand(complex.function,TRUE)

错误:

Error in get(as.character(FUN), mode = "function", envir = envir) : 
object 'complex.function_' of mode 'function' was not found

问题4:如果我的代码块使用dplyr管道运算符怎么办?即:

complex.function = function(x){
      x$carb <- x[,ncol(x)]*2 
      x$carb <- x$carb+2
      x <- as.data.frame(x %>% rename(lol=carb))
      return(x)
    }

我应该只用plyrmr管道操作员替换“%&gt;%”吗?即“%|%”?

问题5:我是否应该在与“group_by”等plyrmr函数等效的dplyr函数上调用magic.wand函数?

问题6:使用as.POSIXct时为什么会出错?

magic.wand(mutate,TRUE)
filename <- "/user/sgerony/mtcars"
complex.function = function(x){
  x$carb <- x[,ncol(x)]*2 
  x$carb <- x$carb+2
  x <- as.data.frame(mutate(x,date.time=as.POSIXct("2014-01-01 03:15")))
  return(x)
}
magic.wand(complex.function)

#Works
mtcars %|% complex.function()
# does NOT work
input(filename) %|% complex.function()

我意识到这是一个很大的问题,所以感谢您试图提供帮助

1 个答案:

答案 0 :(得分:0)

  1. 一个。不,如错误消息所示。 湾否。
  2. a。为什么不呢? 湾没有。关于其他地方R的命名空间有很多解释。
  3. help(magic.wand)解释了这一点。如果你告诉我由于某种原因不清楚,我会尝试做得更好,但剪切和粘贴Rd文档是违反规则的。
  4. 它应该有用,但我不会支持它。
  5. plyrmr中有一些本机函数可以执行dplyr函数的功能(并且已经使用它们)。 magic.wand的正确用途是使complex.functions感知hadoop等自定义函数。
  6. 这与plyrmr无关,您最好的选择是发布一个单独的问题。
  7. 让我试一试:

    complex.function = function(x){
      x$carb <- x[,ncol(x)]*2 
      x$carb <- x$carb+2
      rename(x, lol=carb)}
    magic.wand(complex.function)
    input(mtcars) %|% complex.function
    

    请注意:只需要拨打一个magic.wand电话(另一个不应该受到伤害,但是多余的),并且从complex.function中删除了一些问题。适合我。