Openrefine:跨群集两个数据集

时间:2015-07-10 13:09:00

标签: cluster-analysis openrefine

我有两个带有标题和其他信息的数据集,但在数据集A中我有标题,在数据集B中我有标题和URL。
我必须将URL放在数据集B的数据集A中。有些标题在A和B中是相同的,有些则不是,有些则略有不同(这就是问题所在)。

所以我需要同时合并和聚类那些相似的人。我知道我可以与DBpedia协调,但我需要的是在两个数据集之间“协调”。 是否有可能以某种方式?

谢谢。

1 个答案:

答案 0 :(得分:2)

您可以使用reconcile-csv应用程序(它不是OpenRefine的插件,而是运行本地协调API服务器的独立程序)。

将数据集 B 导出为csv,第一行作为列名,然后启动reconcile-csv,使用 URL 作为 id 列和命名为搜索列:

java -Xmx2g -jar reconcile-csv-0.1.2.jar <CSV-File> <Search Column> <ID Column>

然后打开数据集 A 并添加http://localhost:8000/reconcile作为对帐服务。对帐后,每个已对帐单元格的cell.recon.match.id将包含网址。

相关问题