我有一些最终用户要将csv文件上传到存储桶中,然后将其加载到BigQuery中。 问题是数据的内容不可靠。 也就是说,它包含带有自由文本的字段,其中可能包含换行符,多余的逗号,无效的日期格式,例如e.t.c。
我有一个python脚本,可以对该文件进行预处理并写出一个新的,纠正了所有错误。
我需要能够将其自动化到云中。 我当时想可以将文件的内容(很小)加载到内存中并处理记录,然后将其写回到存储桶中。 我不想在本地处理文件。
尽管进行了广泛的搜索,但我找不到如何将存储桶中的文件加载到内存中,然后再次写回。
任何人都可以帮忙吗?
答案 0 :(得分:3)
我相信您正在寻找的是Google Cloud Functions。您可以将Cloud Function设置为triggered by an upload to the GCS bucket,并使用Python code in the same Cloud Function处理.csv并将其上传到BigQuery,但是,请记住,当前对Python Functions提供了Python 3.7.1支持处于Beta开发状态。