标签: r serialization deserialization sparkr apache-arrow
有没有一种方法可以使用箭头优化R中的间隙。使用arrow我们可以在使用pandas时优化一些代码,但是我们可以优化gapply的内部结构以获得更好的性能。
目前,gapply的作用是:它将给定的rspark数据帧转换为给定列上的r data.frame。然后将生成的r data.frames转换回单个rspark dataframe。
我想做什么:想要优化而不必序列化或反序列化rspark dataframe / r data.frame。
我在做什么:我想在数据框的每个组上应用功能。