Google AutoML导入文本项非常慢

时间:2018-07-24 21:48:20

标签: google-cloud-platform automl google-cloud-automl-nl

我正在将文本项导入Google的AutoML。每行包含大约5000个字符,我要添加70K。这是一个多标签数据集。没有进度条或该过程将花费多长时间的指示。它已经运行了几个小时。有什么方法可以计算剩余时间或估计的总时间。我想添加其他数据集,但是我担心在培训开始之前这将是一个非常漫长的过程。任何形式的公式,即使是半荒谬的猜测,也都很棒。 -谢谢!

3 个答案:

答案 0 :(得分:0)

我认为今天不可能做到这一点,但是我提出了功能请求[1],您可以按照它进行更新。我要求培训和导入数据,因为培训也可能有用。

答案 1 :(得分:0)

我尝试使用50K记录(〜300字节/记录)进行训练,并且加载花费了20多分钟,之后我将其杀死。我重试了1K,该代码运行了20分钟,然后向我发送了一条错误消息,告诉我每个输入有多个标签(是的,那是什么呢?训练数据将包含其中的一些标签),并且我有> 100个标签。我简化了分类桶并重新运行。又花了20分钟才成功。然后我进行了“培训”,花了3个小时,向我收取了11美元的费用。假设线性行为,那么对于5万个记录,这相当于$ 550。初步的预测结果还不错,但是我感觉到它正在为这个问题抛出超大型的神经网络。如果他们说什么是NN及其尺寸会有所帮助。他们会说“ beta”:)

答案 2 :(得分:0)

不要浪费您的时间尝试使用Google进行文本分类。我是GCP的坚决用户,但是Microsoft LUIS更好,更精确且速度更快,以至于我不敢相信这两种产品都试图解决同一问题。

Luis的文档更好,支持更多的语言,测试界面也更好,而且速度更快。.我不知道是否还便宜,因为定价模式不同,但我们愿意支付更多。