标签: hadoop hive google-bigquery hortonworks-data-platform
我们正在考虑从Hadoop / Hive迁移到BigQuery。由于BigQuery对每个查询的数据量收费,我们正在尝试进行一些成本估算。
有没有办法衡量Hadoop集群中所有进程每天处理的数据量?不确定它是否会有所帮助,但我们通过Hive运行所有内容,没有直接的MapReduce。
据我所知,这只是一个近似值,因为BigQuery会对每个已处理的列收费。它应该给我们一个很好的估计值。
Eidt:我们使用Hortonworks。