R从两个键列生成json字符串

时间:2015-09-03 16:26:15

标签: r entity deduplication

R的新手 我正在使用RecordLinkage包开发实体解析算法。到目前为止,我已经取得了相当不错的成功 - 使用重复数据删除,最终得到一个数据框,其中两列是匹配记录的键,如下所示:

x <- list(key1 = c(1,1,2,2,3,3,3,4,5,6))
y <- list(key2 = c(3,4,5,6,4,8,9,7,10,11))
df <- data.frame(key1 = x, key2 = y)
df
     key1 key2
1     1    3
2     1    4
3     2    5
4     2    6
5     3    4
6     3    8
7     3    9
8     4    7
9     5   10
10    6   11

试图找出如何使用包含该实体的所有键的json字符串为每个实体结束一行。如:

               entity_keys
1 {"awkeys":"1,3,4,8,9,7"}
2 {"awkeys":"2,5,6,10,11"}

我使用rjson中的toJSON来生成字符串 - 困难的部分是如何编译键列表。我假设在这里采用传递匹配(例如,如果1匹配3和3匹配8,则1匹配8)。

我确定这是一个时髦的R方式,但不知道那会是什么。任何帮助表示赞赏。

0 个答案:

没有答案