以下是假设。假设我有一个产生布尔结果(string_sim
)的字符串相似性函数,另一个确定两个纬度/经度坐标之间的距离是否低于阈值(geo_dist
)
我决定使用模糊连接合并这些条件:
merge(LHS, RHS, by=string_sim(LHS$string, RHS$string) & geo_dist(LHS$lat, LHS$lon, RHS$lat,RHS$lon))
在幕后,data.table需要比较笛卡尔积......每一行与其他不对称。在中等数据集的数万亿中,这可能很容易成为一个巨大的数字。因此,在向比较函数发送数据时,可能还需要使用分而治之策略,利用为每个进程提供不到20亿个单元的多个进程来避免整数限制。基本上,它需要将矢量的各个部分映射到碎片,然后将它们发送到函数(这开始听起来像map-reduce)
假设用户心烦意乱,希望通过迭代应用连接命令来节省时间,从最低成本运行开始,例如相等条件。
merge(LHS, RHS, by=list(LHS$first_initial == RHS$first_initial, string_sim(LHS$string, RHS$string) & geo_dist(LHS$lat, LHS$lon, RHS$lat,RHS$lon)))
我想要一个像这样的功能。它花了我一些时间,但我已经使用data.table一起攻击了一些使用data.table执行此操作的代码,并且该软件包将来可能会出现类似的内容。
编辑: 让我用更多data.table本地方式表达这一点。首先定义变量以匹配相等:
setkey(LHS, first_initial)
setkey(RHS, first_initial)
然后通过矢量扫描进行二进制合并:
LHS[RHS][string_sim(string, string.1) & geo_dist(lat, lon, lat.1,lon.1)]
或者,可以先完成最昂贵的操作。我认为以下内容会更快:
LHS[RHS][geo_dist(lat, lon, lat.1,lon.1)][string_sim(string, string.1)]
然而,当LHS是2000万行,而RHS是2000万行时,这会使系统过载。为了防止这种情况,我需要使用分而治之的方法将LHS和RHS分成几部分。如果有一些更有效的方法来在后端并行化进程,我认为我不必完成所有这些。
以下是代码:
joiner <- function(x,y, reduce=quote( x[map$x][y[map$y],nomatch=0] ), chunks = 100000, mc.cores = getOption("cores")){
require("multicore")
require("data.table")
map_function <- function(x_N,y_N, chunks){
x_partitions = ceiling(x_N/chunks)
x_parts = (0:x_partitions)*chunks
x_parts[length(x_parts)]=x_N
y_partitions = ceiling(y_N/chunks)
y_parts = (0:y_partitions)*chunks
y_parts[length(y_parts)]=y_N
MAP = vector("list",x_partitions*y_partitions )
index = 0
for(i in 1:x_partitions){
for(j in 1:y_partitions){
index = index +1
MAP[[index]] = list(
x = (x_parts[i]+1):x_parts[i+1],
y = (y_parts[j]+1):y_parts[j+1]
)
}
}
return(MAP)
}
if(missing(y)){
y=x
}
reducer_function <- function(map, reduce, x,y){
eval(reduce)
}
collector = mclapply(map_function(nrow(x),nrow(y),chunks=chunks),reducer_function,reduce, x,y, mc.cores=mc.cores)
collector = rbindlist(collector)
return(collector)
}
D = data.table(value=letters, row_id = sample(1:100,26)); D= rbind(D,D); setkey(D,value)
joiner(D); joiner(D,chunks=10); D[D] # they are all the same, except the key is gone