我知道要在本地计算机上制作90 GB .csv
文件,然后上传到Google BigQuery进行分析。我通过将数千个较小的.csv
文件合并到10个中等大小的文件中,然后将这些中等大小的文件合并到90 GB文件中来创建此文件,然后我将其移至GBQ。我正在为这个项目苦苦挣扎,因为我的计算机不断出现内存问题。从this视频我了解到我应该首先将中等大小的.csv
文件(每个大约9 GB)转换为.gz
个文件(每个大约500 MB),然后上传{{1}个文件将文件存入Google云端存储。接下来,我将创建一个空表(在Google BigQuery / Datasets中),然后将所有这些文件附加到创建的表中。我遇到的问题是找到一些关于如何执行此操作的教程或者如何执行此操作的文档。我是谷歌平台的新手,所以也许这是一个非常容易的工作,只需点击一下即可完成,但我能找到的只是我上面链接的视频。我在哪里可以找到关于人们如何做到这一点的一些帮助或文档或教程或视频?我对工作流程有正确的想法吗?有没有更好的方法(比如使用一些可下载的GUI上传内容)?
答案 0 :(得分:1)
请参阅此处的说明: https://cloud.google.com/bigquery/bq-command-line-tool#creatingtablefromfile
正如Abdou在评论中提到的那样,你不需要提前将它们结合起来。只需gzip所有小CSV文件,将它们上传到GCS存储桶,然后使用“bq.py load”命令创建一个新表。请注意,您可以使用通配符语法来避免列出要加载的所有单个文件名。
--autodetect标志可能允许您避免手动指定架构,尽管这取决于您输入的采样,如果在某些情况下无法检测到,可能需要更正。