我目前正在使用Google BigQuery平台上传多个数据(〜> 6 Go),并使用Tableau Desktop Software将它们作为数据源使用。 现在,我平均需要一个小时才能上传12张CSV格式的表格(总共6张Go),未压缩,使用Google API的python脚本。 谷歌文档指定“如果加载速度对您的应用程序很重要,并且您有很多带宽来加载数据,请保持文件未压缩。” 我该如何优化此流程?应该是压缩我的csv文件的解决方案,以提高上传速度? 我也考虑使用谷歌云存储,但我希望我的问题会一样吗? 我需要减少上传数据文件的时间,但我找不到很好的解决方案。
提前致谢。
答案 0 :(得分:1)
压缩输入数据将减少上传数据的时间,但会在数据上传后增加加载作业执行的时间(压缩会限制我们并行处理数据的能力)。由于听起来您更喜欢优化上传速度,我建议您压缩数据。
请注意,如果您愿意将数据拆分为多个块并单独压缩它们,那么您可以充分利用这两个方面 - 快速上传和并行加载作业。
上传到Google云端存储应该有相同的权衡,除了一个优点:您可以在一个加载作业中指定多个源文件。如果您按照上面的建议预先对数据进行分片,这很方便,因为这样您就可以运行单个加载作业,将多个压缩输入文件指定为源文件。