验证提取数据的最佳方法

时间:2018-10-19 15:48:56

标签: validation apache-spark hadoop data-manipulation data-ingestion

我每天从各种外部来源(例如Google Analytics(分析),抓取工具,Google BQ等)中提取数据。 我将创建的CSV文件存储到HDFS中,从中创建阶段表,然后将其追加到Hadoop中的历史表中。 您能否分享一些最佳实践,以如何用历史数据验证新数据?例如,将实际数据的行数与最近10天的平均值进行比较或类似的比较。火花或其他东西有准备好的解决方案吗?

感谢您的建议。

0 个答案:

没有答案