应用错误收集

如果使用python计算kmeans聚类，使用BigQuery作为Dataproc的ndarrays数据源是否有优势？

时间：2016-07-21 08:20:49

标签： google-bigquery pyspark k-means google-cloud-dataproc

我从Dataproc的文档中了解到它可以使用pyspark从BigQuery读取数据，但是在使用形状（xxxxxxx）的ndarrays上运行kmeans聚类时，有一个优势，而不是从CloudStorage读取文件表示

1 个答案:

答案 0 :(得分：1)

如果您不打算在BigQuery中对数据进行任何其他操作，那么在这个用例中，您绝对无法从BigQuery中存储数据。

每https://cloud.google.com/hadoop/bigquery-connector，

Hadoop的BigQuery连接器将数据下载到您的Google中运行Hadoop作业之前的云存储桶。

换句话说，连接器不执行谓词下推或以其他方式利用BigQuery进行计算;这个连接器只是一种方便的方法，可以访问你已经存储或在BigQuery中生成的数据。