ibm-watson - 为什么在Watson NLC中对训练（1024个字符）和生产（2048个字符）有不同的大小限制？

为什么在Watson NLC中对训练（1024个字符）和生产（2048个字符）有不同的大小限制？

时间：2018-11-26 15:44:13

标签： ibm-watson nl-classifier

IBM Watson自然语言分类器（NLC）将训练集中的文本值限制为1024个字符： https://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-limits。

但是，经过训练的模型可以对每个文本的长度最多为2048个字符进行分类： https://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase。

这种差异给我带来了一些困惑：我一直都知道我们应该在训练阶段和生产阶段都使用相同的预处理，因此，如果我不得不将训练数据限制为1024个字符，我会做同样的事情也在生产中。

我的推理是否正确？我应该在生产中以1024个字符（我认为应该是）还是以2048个字符（也许是因为1024个字符太少了）来限制文本？

提前谢谢！

1 个答案:

答案 0 :(得分：0)

最近，我有一个相同的问题，而一篇文章的答案也阐明了相同的问题

当前，培训的限制设置为 1024 ，培训的限制设置为 2048 测试/分类。 1024个限制可能需要一些管理训练之前的训练数据。大多数需要数据的字符限制较大，最终将其输入分块文本分成1024个块。此外，在用例中，数据类似于在Airbnb评论中，通常可以评估主要类别前2048个字符以内，因为通常会有很多噪音冗长的评论。

这是文章的link