IBM Watson自然语言分类器(NLC)将训练集中的文本值限制为1024个字符: https://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-limits。
但是,经过训练的模型可以对每个文本的长度最多为2048个字符进行分类: https://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase。
这种差异给我带来了一些困惑:我一直都知道我们应该在训练阶段和生产阶段都使用相同的预处理,因此,如果我不得不将训练数据限制为1024个字符,我会做同样的事情也在生产中。
我的推理是否正确?我应该在生产中以1024个字符(我认为应该是)还是以2048个字符(也许是因为1024个字符太少了)来限制文本?
提前谢谢!
答案 0 :(得分:0)
最近,我有一个相同的问题,而一篇文章的答案也阐明了相同的问题
当前,培训的限制设置为 1024 ,培训的限制设置为 2048 测试/分类。 1024个限制可能需要一些管理 训练之前的训练数据。大多数需要 数据的字符限制较大,最终将其输入分块 文本分成1024个块。此外,在用例中,数据类似于 在Airbnb评论中,通常可以评估主要类别 前2048个字符以内,因为通常会有很多噪音 冗长的评论。
这是文章的link