标签: validation apache-spark hadoop data-manipulation data-ingestion
我每天从各种外部来源(例如Google Analytics(分析),抓取工具,Google BQ等)中提取数据。 我将创建的CSV文件存储到HDFS中,从中创建阶段表,然后将其追加到Hadoop中的历史表中。 您能否分享一些最佳实践,以如何用历史数据验证新数据?例如,将实际数据的行数与最近10天的平均值进行比较或类似的比较。火花或其他东西有准备好的解决方案吗?
感谢您的建议。