我有一个大约有400万行和18列的数据框。我正在尝试使用 pd.to_gbq()推送到Google大查询表。
我认为Google BigQuery的最终结果是229万行..
我认为这可能与流缓冲区有关..但是不应该加载的内容的细节是否准确?
我已经检查了关于加载到Google Big查询的pandas文档,我发现没有限制。
任何人都可以确认这是否是由于流缓冲区造成的吗?并且实际尺寸会更新?或者这是pd.to_gbq()本身的问题?
谢谢!
答案 0 :(得分:0)
我发现的一个限制是
在以下代码中,我正在将数据帧写入Bigquery。如果选项if_exists
设置为append
,则to_gbq
函数应将结果附加到表(如果该表存在),否则它将创建一个表。
因此,在第二种情况下,它创建了一个新表,我找不到设置分区列的方法。
results.to_gbq(f'{BQ_DATASET_NAME}.{table}',
PROJECT_ID,
chunksize=None,
if_exists='append',
table_schema=schema,
)