我想从云端存储上传Tweets数据集。我有一个基于https://github.com/twitterdev/twitter-for-bigquery的架构,但更简单,因为我不需要所有字段。
我将多个文件上传到云端存储,然后从BigQuery手动导入它们。我已经尝试加载每个文件忽略未知字段,而不是忽略它们。但是我总是得到一个比原始数据集更少行的表。为了以防万一,我负责消除每个数据集中的冗余行。
示例作业ID:
我不知道为什么会这样。我试图进一步简化架构,并确保数据集是干净的(没有重复的行,没有无效的数据,等等)。奇怪的是,如果我拿一小部分推文(比如10,000),然后手动上传文件,它就可以了 - 它会加载10,000行。
如何找到导致问题的原因?