将数千个JSON文件加载到BigQuery

时间:2019-12-04 16:08:42

标签: json google-cloud-platform google-bigquery

我大约有10,000个JSON文件,我想将它们加载到BigQuery中。由于BQ仅接受ndJSON,因此我花了数小时寻找解决方案,但找不到一种简单干净的方法将所有文件转换为ndJSON。

我测试了cat test.json | jq -c '.[]' > testNDJSON.json,它可以很好地转换文件,但是如何一次转换所有文件呢?

现在,我的〜10k文件位于GCP存储桶中,重量约为5go。

谢谢!

2 个答案:

答案 0 :(得分:1)

您在搜索中遇到Dataprep吗? Dataprep可以从Cloud Storage中读取数据,帮助您格式化数据并将数据插入到BigQuery中。

或者,您可以使用Cloud DataFlow I / O转换来自动处理此问题。请参见下面的reference链接。

希望这会有所帮助。

答案 1 :(得分:0)

我的建议是使用Google-provided Cloud Dataflow模板将文件传输到BQ,您可以使用名为Cloud Storage Text to BigQuery 的模板,考虑UDF函数转换JSON文件很重要。