计算大数据的成对字符串距离

时间:2017-02-22 20:13:30

标签: r string-comparison stringdist bigdata

我在17列上比较了800万个观测值的成对字符串距离。

因为我遇到内存问题,我想请求有关子设置技术或其他方法的帮助来解决这个问题。

在本网站的different问题中,我请求帮助以加快我编写的原始代码(基于尚未another的问题)。得到的答案(感谢@alistaire)提供了非常有用的帮助,并极大地提高了速度。但是,在真实数据上,使用这种方法很快就会耗尽内存。

考虑以下测试数据,只需要比较三个变量:

ptb.valid.txt

当我运行以下代码时,我得到了所需的输出并非常快。

df <- data.frame(names=c("A ADAM", "S BEAN", "A APPLE", "J BOND", "J BOND"), 
                  v1=c("Test_a", "Test_b", "Test_a", "Test_b", "Test_b"), 
                  v2=c("Test_c", "Test_c", "Test_d", "Test_d", "Test_d")) 

但是当我运行原始数据时,这种方法会导致内存问题。然而,我想使用这种方法,因为它非常快。

是否有任何可用的技术/方法将此代码应用于800万data.frame的子集,以便每行与data.frame中的每一行进行比较?

我正在研究的系统有:

  • 12个核心

  • 128GB RAM

0 个答案:

没有答案