Question

描述我正在做什么的最简单方法实质上是遵循本教程：Import a CSV file into a Cloud Bigtable table，但是在他们开始Dataflow作业的部分中，他们使用Java：

mvn package exec:exec \
    -DCsvImport \
    -Dbigtable.projectID=YOUR_PROJECT_ID \
    -Dbigtable.instanceID=YOUR_INSTANCE_ID \
    -Dbigtable.table="YOUR_TABLE_ID" \
    -DinputFile="YOUR_FILE" \
    -Dheaders="YOUR_HEADERS"

有没有办法在python中执行此特定步骤？我能找到的最接近的例子是apache_beam.examples.wordcount示例here，但最终我希望看到一些代码，可以在其中使用Python将一些自定义添加到Dataflow作业中。

Answer 1

有a connector for writing to Cloud Bigtable，您可以将其用作导入CSV文件的起点。

Answer 2

Google Dataflow没有用于BigTable的Python连接器。

这是Java和Python的Apache Beam连接器的链接：

Built-in I/O Transforms

Answer 3

我建议做这样的事情。

DataFrame.to_gbq(destination_table, project_id, chunksize=10000, verbose=True, reauth=False, if_exists='fail', private_key=None)

您将在下面的链接中找到所有参数以及每个参数的说明。

https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.to_gbq.html#pandas.DataFrame.to_gbq

如何使用Python通过Cloud Dataflow将CSV文件导入Cloud Bigtable？

3 个答案: