标签: python validation hadoop hive bigdata
在我们的应用程序中,我们正在将大量数据从teradata迁移到Hive。 需要验证源和目标之间的数据。我们计划使用python&熊猫数据框。 我的疑问是
1.Will pandas data-frame can handle around 15 million of data ? 2.Is there any other way to do it ?
使用python实现上述目标的最佳方法是什么?
提前致谢