hadoop - 存储在谷歌云上

存储在谷歌云上

时间：2017-06-27 19:09:58

标签： hadoop google-bigquery

我有以下用例：我需要使用PySpark分析大量结构化数据。数据目前为CSV格式。我试图找出在谷歌云上存储数据的最佳方法。我的理解是HDFS不能工作，因为每次集群关闭时，HDFS数据都会消失，因此我每次都必须从CSV转换为HDFS，这非常耗时。似乎正确的策略是使用BigQuery，但我不能确定BigQuery是否持久？

3 个答案:

答案 0 :(得分：2)

是的，BigQuery是持久的，但您也可以控制table expiration time。要将CSV文件加载到BigQuery，您可以通过指向它们在GCS上的位置来create a table from them，假设您已将文件复制到那里。有各种第三方连接器可以帮助您将数据传输到GCS，BigQuery团队提供了Data Transfer Service来帮助自动传输数据。

答案 1 :(得分：2)

BigQuery是持久的，那么你应该检查的是SLA是否适合你。目前，SLA每月的数据可用性> = 99.9％。

您还可以存储在Google云端存储中的存储桶中。根据您希望访问该数据的频率，您有不同的价格：https://cloud.google.com/storage/

Google可帮助您选择存储空间，查看其文档的该页面：https://cloud.google.com/storage-options/

答案 2 :(得分：2)

如果您计划仅使用PySpark处理数据 - 最好将文件存储在Google云端存储中，而不是存储在BigQuery中。即使是受管理的Google Cloud的Spark（DataProc）也无法像从Google云端存储中那样有效地从BigQuery存储中读取数据。