存储在谷歌云上

时间:2017-06-27 19:09:58

标签: hadoop google-bigquery

我有以下用例:我需要使用PySpark分析大量结构化数据。数据目前为CSV格式。我试图找出在谷歌云上存储数据的最佳方法。我的理解是HDFS不能工作,因为每次集群关闭时,HDFS数据都会消失,因此我每次都必须从CSV转换为HDFS,这非常耗时。似乎正确的策略是使用BigQuery,但我不能确定BigQuery是否持久?

3 个答案:

答案 0 :(得分:2)

是的,BigQuery是持久的,但您也可以控制table expiration time。要将CSV文件加载到BigQuery,您可以通过指向它们在GCS上的位置来create a table from them,假设您已将文件复制到那里。有各种第三方连接器可以帮助您将数据传输到GCS,BigQuery团队提供了Data Transfer Service来帮助自动传输数据。

答案 1 :(得分:2)

BigQuery是持久的,那么你应该检查的是SLA是否适合你。目前,SLA每月的数据可用性> = 99.9%。

您还可以存储在Google云端存储中的存储桶中。根据您希望访问该数据的频率,您有不同的价格:https://cloud.google.com/storage/

Google可帮助您选择存储空间,查看其文档的该页面:https://cloud.google.com/storage-options/

答案 2 :(得分:2)

如果您计划仅使用PySpark处理数据 - 最好将文件存储在Google云端存储中,而不是存储在BigQuery中。即使是受管理的Google Cloud的Spark(DataProc)也无法像从Google云端存储中那样有效地从BigQuery存储中读取数据。