如何基于聚类对文本分类数据进行分组?

时间:2018-11-24 10:43:33

标签: tensorflow machine-learning deep-learning classification multiclass-classification

因此,如果我的文本数据集中有超过50个类别。

示例:

Index_no               short_text_sentence                             label 

01                     yes I like riding a bike.                 category_0
02                     I was 4 when I learned.                   category_1                 
03                     I learned to ride a bike.                 category_2
04                     Bike is yellow and black.                 category_3 
05                     i like riding my bike, i learnt           category_4
06                     riding a bike when i was 8 or             category_3
07                     9 years old ,my bike is sparkling         category_9
08                     pink with white marks                     category_6   
09                     I love riding bike.                       category_1
10                     I will improve my skills.                 category_3

现在,我想对它进行RNN和LSTM的尝试,但是由于类别众多(超过50个),我的结果并不理想,因为每个句子的概率分布在50个类别中。

我当时正在考虑根据t-sne或其他聚类方法对类别进行分组,但是我正在寻找如何在文本中进行分类并将这些类别分组的方法,因此我将得到的类别很少。

我正在使用tensorflow,并且我的网络结构是RNN-LSTM,没有引起注意。我也在考虑去CNN。

如果有人能给我一些有关如何对类别进行分组以及应该为此类问题选择哪种网络结构的建议,我将不胜感激。

谢谢。

0 个答案:

没有答案