为什么在Watson NLC中对训练(1024个字符)和生产(2048个字符)有不同的大小限制?

时间:2018-11-26 15:44:13

标签: ibm-watson nl-classifier

IBM Watson自然语言分类器(NLC)将训练集中的文本值限制为1024个字符: https://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-limits

但是,经过训练的模型可以对每个文本的长度最多为2048个字符进行分类: https://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase

这种差异给我带来了一些困惑:我一直都知道我们应该在训练阶段和生产阶段都使用相同的预处理,因此,如果我不得不将训练数据限制为1024个字符,我会做同样的事情也在生产中。

我的推理是否正确?我应该在生产中以1024个字符(我认为应该是)还是以2048个字符(也许是因为1024个字符太少了)来限制文本?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

最近,我有一个相同的问题,而一篇文章的答案也阐明了相同的问题

  

当前,培训的限制设置为 1024 ,培训的限制设置为 2048   测试/分类。 1024个限制可能需要一些管理   训练之前的训练数据。大多数需要   数据的字符限制较大,最终将其输入分块   文本分成1024个块。此外,在用例中,数据类似于   在Airbnb评论中,通常可以评估主要类别   前2048个字符以内,因为通常会有很多噪音   冗长的评论。

这是文章的link