如何在Google云端存储中快速分析数PB的数据?

时间:2017-06-21 08:58:56

标签: google-cloud-storage

我们正在考虑将数PB的随机文件存储在Google云端存储(GCS)中进行备份。这些文件可能是文本文件,word文件,二进制文件等。

一旦我们存储了这些文件,对这些文件运行搜索的最有效方法是什么? GCS是否提供我们可用于构建自定义文件搜索功能的数据分析工具?

提前感谢您的帮助。

  • A

1 个答案:

答案 0 :(得分:0)

对于生成报告的分析,比如聚合每个类别的条目或其他内容,分析数据的最佳选择是BigQuery。它有点像SQL,除了它大规模并行运行。

默认情况下,Google云端存储不提供任何搜索功能,但它与Cloud Dataproc或Cloud Dataflow等工作流程系统配合得非常好,您可以使用它来维护自定义搜索索引。