每当我尝试将存储在CloudStorage中的CSV文件加载到BigQuery中时,我会得到一个InternalError(使用Web界面和命令行)。 CSV是Google Ngram数据集的缩写部分。
命令如:
bq load 1grams.ngrams gs://otichybucket/import_test.csv word:STRING,year:INTEGER,freq:INTEGER,volume:INTEGER
给了我:
BigQuery error in load operation: Error processing job 'otichyproject1:bqjob_r28187461b449065a_000001504e747a35_1': An internal error occurred and the request could not be completed.
但是,当我使用Web界面直接加载此文件并将文件上载作为源(从本地驱动器加载)时,它可以正常工作。
我需要从云存储加载,因为我需要加载更大的文件(原始的ngrams数据集)。
我尝试了不同的文件,总是一样的。
答案 0 :(得分:2)
我是BigQuery团队的工程师。我能够查找您的工作,看起来在阅读Google云端存储对象时出现问题。
不幸的是,我们没有记录大部分上下文,但是查看代码,可能导致这种情况的原因是:
您为作业指定的URI会以某种方式格式错误。它看起来没有变形,但也许有一些奇怪的UTF8非打印字符,我没有注意到。
'''因为你的水桶有点出乎意料。您是否有可能将GCS存储桶上的数据位置设置为{US,EU或ASIA}以外的其他位置。有关存储桶位置的详细信息,请参阅here。如果是这样,并且您已将位置设置为可能导致此错误的区域而非大陆。
GCS中可能存在一些导致此问题的内部错误。但是,我在任何日志中都没有看到这一点,而且应该相当罕见。
我们将来会进行更多日志记录以检测此问题并解决区域存储区问题(但是,区域存储桶可能会失败,因为bigquery不支持跨区域数据移动,但是至少他们会以一个可以理解的错误而失败。)