GCP Dataproc可以从本地DB压缩数据(或在其上运行其他作业)吗?

时间:2019-03-11 21:42:50

标签: google-cloud-platform sqoop google-cloud-dataproc google-cloud-vpn

GCP Dataproc sqoop是否可以从本地数据库导入数据以放入GCP存储(没有GCP VPC)?

我们有一个通过VPN隧道连接到本地网络的远程Oracle数据库,我们使用Hadoop集群每天通过 Apache Sqoop 提取数据。想要用GCP Dataproc集群替换此过程以运行sqoop作业和GCP存储。 发现这篇文章似乎在做类似Moving Data with Apache Sqoop in Google Cloud Dataproc的事情,但是它假设用户具有 GCP VPC (我不打算购买)。

所以我的问题是:

  • 没有此VPC连接,云数据处理集群是否会知道如何使用job submission API从我们本地网络上的数据库中获取数据?
  • 如果是这样,这将如何工作(也许我对Hadoop作业的工作方式/获取数据了解得不够多)?
  • 是否可以通过其他方式?

2 个答案:

答案 0 :(得分:2)

如果不使用VPC/VPN,将无法授予Dataproc访问本地数据库的权限。

如果您的VPN可以更好地满足您的需求,则可以使用VPN:https://cloud.google.com/vpn/docs/

您仅有的另一种选择是打开本地数据库到Internet,以便Dataproc能够在没有VPC / VPN的情况下访问它,但这本质上是不安全的。

答案 1 :(得分:0)

在这种情况下,在本地安装 GCS 连接器可能会奏效。它不需要 VPC/VPN。