我有一个GCP ML管道,将.csv文件存储到Cloud Bucket中后,我需要对其进行预处理(主要是pandas
操作),然后将其传递给Google Cloud AI Platform进行培训。
如果我在AI平台(包含培训和模型培训的单个培训工作)中进行了此预处理,则这会花费很多时间,不确定为什么,日志在此时间延迟中未指定任何内容,但是培训部分在ai平台上非常快。
我们不是应该在AI Platform / ML Engine中进行数据预处理吗?
我尝试使用Cloud Function进行预处理,但是它在540秒内超时,这对我们来说是一个瓶颈。另外,我不确定Cloud Dataflow是否适合该用例。
基本上,在将数据传递给AI平台之前,我需要做一些python pandas
预处理。您能建议使用任何GCP产品吗?
我知道我们可以创建一个GCE实例并在那里做所有事情,但我们不想使用任何IaaS服务,而希望使用GCP的更多PaaS来进行以后的扩展。