因此,如果我的文本数据集中有超过50个类别。
示例:
Index_no short_text_sentence label
01 yes I like riding a bike. category_0
02 I was 4 when I learned. category_1
03 I learned to ride a bike. category_2
04 Bike is yellow and black. category_3
05 i like riding my bike, i learnt category_4
06 riding a bike when i was 8 or category_3
07 9 years old ,my bike is sparkling category_9
08 pink with white marks category_6
09 I love riding bike. category_1
10 I will improve my skills. category_3
现在,我想对它进行RNN和LSTM的尝试,但是由于类别众多(超过50个),我的结果并不理想,因为每个句子的概率分布在50个类别中。
我当时正在考虑根据t-sne或其他聚类方法对类别进行分组,但是我正在寻找如何在文本中进行分类并将这些类别分组的方法,因此我将得到的类别很少。
我正在使用tensorflow,并且我的网络结构是RNN-LSTM,没有引起注意。我也在考虑去CNN。
如果有人能给我一些有关如何对类别进行分组以及应该为此类问题选择哪种网络结构的建议,我将不胜感激。
谢谢。