我们正在尝试创建一个Azure ML Web服务,该服务将接收(.csv)数据文件,执行一些处理并返回两个类似的文件。最近添加到azure ML平台的Python支持非常有用,我们能够成功移植代码,在实验模式下运行并发布Web服务。
使用“批处理”API,我们现在能够将文件从blob-storage导向服务并获得所需的输出。但是,小文件(几KB)的运行时间明显慢于本地计算机,更重要的是,对于稍大的输入数据文件(40MB),该过程似乎永远不会返回。我本地计算机上同一文件的处理时间不到1分钟。
我的问题是,如果你能看到我们做错了什么,或者是否有办法让它加速。以下是该实验的DAG表示:
这是应该设置实验的方式吗?
答案 0 :(得分:1)
看起来问题在于处理输入表中的 timestamp 列。成功的解决方法是使用"元数据编辑器"显式强制将列作为字符串值处理。块。最终模型现在看起来像这样: