我从Dataproc的文档中了解到它可以使用pyspark从BigQuery读取数据,但是在使用形状(xxxxxxx)的ndarrays上运行kmeans聚类时,有一个优势,而不是从CloudStorage读取文件表示
答案 0 :(得分:1)
如果您不打算在BigQuery中对数据进行任何其他操作,那么在这个用例中,您绝对无法从BigQuery中存储数据。
每https://cloud.google.com/hadoop/bigquery-connector,
Hadoop的BigQuery连接器将数据下载到您的Google中 运行Hadoop作业之前的云存储桶。
换句话说,连接器不执行谓词下推或以其他方式利用BigQuery进行计算;这个连接器只是一种方便的方法,可以访问你已经存储或在BigQuery中生成的数据。