在组合两个数据源时,我有一个关于最佳实践的问题,这两个数据源都有部分数据,偶尔会有相互矛盾的数据。
我有两个不同的数据源,我用来获取与特定房屋相关的变量(Zillow和Redfin)。
两个数据源之间存在差异。对于同一个房子,其中一个数据源可能缺少特定变量,因此我从其他来源收集该数据。有时两个源都可能有变量,但同一个房子的值不同,表明其中一个源必须是错误的。
我不确定存储数据的最佳做法是什么,并确保最终数据集覆盖率最高,并且最有可能包含正确的数据。
我想要的一些想法是:
1)将两者存储在单独的表中,然后在第三个表中合并,该表包含我从基础数据创建的统计信息。这种方法的问题是我需要一个更大的数据库。
2)插入一组数据,然后从另一个源获取相同的数据,并在相关的表中覆盖。这种方法的问题在于,如果我想返回并更改我如何计算统计数据,我可能不知道从哪个源检索数据。
是否有任何组合不同数据集的最佳做法?
我也不完全确定如何在同一房屋的同一变量的冲突值之间做出选择。我应该始终坚持使用其中一个来源吗?
任何帮助将不胜感激!