BigQuery从云存储中加载不完整的数据集?

时间:2015-12-25 15:33:45

标签: google-bigquery

我想从云端存储上传Tweets数据集。我有一个基于https://github.com/twitterdev/twitter-for-bigquery的架构,但更简单,因为我不需要所有字段。

我将多个文件上传到云端存储,然后从BigQuery手动导入它们。我已经尝试加载每个文件忽略未知字段,而不是忽略它们。但是我总是得到一个比原始数据集更少行的表。为了以防万一,我负责消除每个数据集中的冗余行。

示例作业ID:

  • cellular-dream-110102:job_ZqnMTr17Yx_KKGEuec3qfA0DWMo(已加载1,457,794行,但数据集包含2,387,6​​66)
  • cellular-dream-110102:job_2xfbTFSvvs-unpP6xZXAfDeDjic(加载1,151,122行,但数据集包含3,265,405)。

我不知道为什么会这样。我试图进一步简化架构,并确保数据集是干净的(没有重复的行,没有无效的数据,等等)。奇怪的是,如果我拿一小部分推文(比如10,000),然后手动上传文件,它就可以了 - 它会加载10,000行。

如何找到导致问题的原因?

0 个答案:

没有答案