我大约有10,000个JSON文件,我想将它们加载到BigQuery中。由于BQ仅接受ndJSON,因此我花了数小时寻找解决方案,但找不到一种简单干净的方法将所有文件转换为ndJSON。
我测试了cat test.json | jq -c '.[]' > testNDJSON.json
,它可以很好地转换文件,但是如何一次转换所有文件呢?
现在,我的〜10k文件位于GCP存储桶中,重量约为5go。
谢谢!
答案 0 :(得分:1)
您在搜索中遇到Dataprep吗? Dataprep可以从Cloud Storage中读取数据,帮助您格式化数据并将数据插入到BigQuery中。
或者,您可以使用Cloud DataFlow I / O转换来自动处理此问题。请参见下面的reference链接。
希望这会有所帮助。
答案 1 :(得分:0)
我的建议是使用Google-provided Cloud Dataflow模板将文件传输到BQ,您可以使用名为Cloud Storage Text to BigQuery 的模板,考虑UDF函数转换JSON文件很重要。