GCP:数据预处理,然后再传递到云AI平台

时间:2019-10-20 06:29:12

标签: google-cloud-platform google-cloud-ml gcp-ai-platform-notebook gcp-ai-platform-training

我有一个GCP ML管道,将.csv文件存储到Cloud Bucket中后,我需要对其进行预处理(主要是pandas操作),然后将其传递给Google Cloud AI Platform进行培训。

如果我在AI平台(包含培训和模型培训的单个培训工作)中进行了此预处理,则这会花费很多时间,不确定为什么,日志在此时间延迟中未指定任何内容,但是培训部分在ai平台上非常快。

我们不是应该在AI Platform / ML Engine中进行数据预处理吗?

我尝试使用Cloud Function进行预处理,但是它在540秒内超时,这对我们来说是一个瓶颈。另外,我不确定Cloud Dataflow是否适合该用例。

基本上,在将数据传递给AI平台之前,我需要做一些python pandas预处理。您能建议使用任何GCP产品吗?

我知道我们可以创建一个GCE实例并在那里做所有事情,但我们不想使用任何IaaS服务,而希望使用GCP的更多PaaS来进行以后的扩展。

0 个答案:

没有答案