我有两个数据源,它们都返回JSON。
我想确保在两个JSON中存在一定比例的匹配(数据重叠,如果你愿意),以便整理它们并存储在一个记录中。
比较两个弦的熵是最好的方法吗?还有其他解决方案吗?我使用Java,也可以使用scala。
答案 0 :(得分:2)
您可以将它们转换为xml,然后使用xdiff算法,或将每个json记录放到一行,并使用unix diff
。或者将其转换为内部树表示,并应用parallel tree difference算法。这取决于您寻找的是什么样的差异,而不依赖于实现语言。