我需要在新上传的表上处理批处理作业的建议(使用php和csv)。
目前我每周运行的过程是上传2个表(一个是~400000行和~24mb数据,第二个是~7000行和~627kb数据),然后安排具有批处理优先级的查询来处理上传的数据从这些表中将结果保存到新表中。
当我试图在白天运行批量查询时,通常需要我运行一些实质性的延迟,比如20分钟左右。问题是在上传过程中,bigquery几乎立即运行它们,因此抛出“Table not found error”并跳过其中一些错误。
最近上传: 上传表格1“job_75ae1fa6db89418b8fe2b6c443501246” 上传表格2“job_a79c39ae528944848fab85650b94a5d7” 显示最近错误的批处理作业编号之一是“job_dd18580ccb51486dabf82d1d408a3199”
问题是 - 批处理作业的这种行为是否正确?有没有办法预测/安排他们的执行时间,或者我只是需要将它们分开并在不同的时间运行?
答案 0 :(得分:0)
您明确没有对批处理作业何时发生提供很多保证。我会认真对待。但是,您可以使用get
来确定它何时发生。
批处理作业的重点在于它们可以在原本闲置的机器上运行。没有人事先知道这些机器的可用性。如果这对您来说是个问题,请不要安排批处理作业。