python - 分类交叉熵？

我正在尝试对包含评论文本和总体评分的数据集进行分类。

我对数据进行了预处理，并将标签（1-6）转换为二进制分类器，并使用具有密集层输出的嵌入层输入算法。数据集是平衡的，因此每个评论的总体评分数相等。

我的算法还不错。它给了我85％，84％的准确性和验证准确性。当我不将其转换为二进制分类器时，它会变得更糟（40％ish），这不像猜测那样糟糕。

我的问题是为什么它的性能要低得多？是因为4和5之间的文本情感差异不如2和5之间的显着差异，还是因为当我将其组合成二进制分类器时，每个标签因此会有更多行吗？

我真的想开发一个分类文本分类器，而不仅是分类器（无论评论是低于还是高于3）。如果猜测是20％，那么40％的正确率是正确的吗？

谢谢