Question

我有一个大约有400万行和18列的数据框。我正在尝试使用 pd.to_gbq（）推送到Google大查询表。

我认为Google BigQuery的最终结果是229万行..

我认为这可能与流缓冲区有关..但是不应该加载的内容的细节是否准确？

我已经检查了关于加载到Google Big查询的pandas文档，我发现没有限制。

以下是一些测试结果：

以下是加载数据框时的代码和形状：

任何人都可以确认这是否是由于流缓冲区造成的吗？并且实际尺寸会更新？或者这是pd.to_gbq（）本身的问题？

谢谢！

Answer 1

我发现的一个限制是在以下代码中，我正在将数据帧写入Bigquery。如果选项if_exists设置为append，则to_gbq函数应将结果附加到表（如果该表存在），否则它将创建一个表。因此，在第二种情况下，它创建了一个新表，我找不到设置分区列的方法。

results.to_gbq(f'{BQ_DATASET_NAME}.{table}',
                           PROJECT_ID,
                           chunksize=None,
                           if_exists='append',
                           table_schema=schema,
                           )

从pandas加载到bigquery（）的pd.to_gbq（）是否有限制？

1 个答案: