如果使用python计算kmeans聚类,使用BigQuery作为Dataproc的ndarrays数据源是否有优势?

时间:2016-07-21 08:20:49

标签: google-bigquery pyspark k-means google-cloud-dataproc

我从Dataproc的文档中了解到它可以使用pyspark从BigQuery读取数据,但是在使用形状(xxxxxxx)的ndarrays上运行kmeans聚类时,有一个优势,而不是从CloudStorage读取文件表示

1 个答案:

答案 0 :(得分:1)

如果您不打算在BigQuery中对数据进行任何其他操作,那么在这个用例中,您绝对无法从BigQuery中存储数据。

https://cloud.google.com/hadoop/bigquery-connector

  

Hadoop的BigQuery连接器将数据下载到您的Google中   运行Hadoop作业之前的云存储桶。

换句话说,连接器不执行谓词下推或以其他方式利用BigQuery进行计算;这个连接器只是一种方便的方法,可以访问你已经存储或在BigQuery中生成的数据。