R的新手 我正在使用RecordLinkage包开发实体解析算法。到目前为止,我已经取得了相当不错的成功 - 使用重复数据删除,最终得到一个数据框,其中两列是匹配记录的键,如下所示:
x <- list(key1 = c(1,1,2,2,3,3,3,4,5,6))
y <- list(key2 = c(3,4,5,6,4,8,9,7,10,11))
df <- data.frame(key1 = x, key2 = y)
df
key1 key2
1 1 3
2 1 4
3 2 5
4 2 6
5 3 4
6 3 8
7 3 9
8 4 7
9 5 10
10 6 11
试图找出如何使用包含该实体的所有键的json字符串为每个实体结束一行。如:
entity_keys
1 {"awkeys":"1,3,4,8,9,7"}
2 {"awkeys":"2,5,6,10,11"}
我使用rjson中的toJSON来生成字符串 - 困难的部分是如何编译键列表。我假设在这里采用传递匹配(例如,如果1匹配3和3匹配8,则1匹配8)。
我确定这是一个时髦的R方式,但不知道那会是什么。任何帮助表示赞赏。