我正在执行多标签分类(4个标签)任务,特别是文本分类。我得到1000个txt,每个有50个单词和一个标签,每个单词都嵌入100维,我使用pytorch。我有个问题, 每个txt都有不同的长度,例如十个字,五个字或八个字。我首先将单词嵌入100维,我知道LSTM与序列长度无关。这样我就可以处理所有成功的txt,但是如何同时处理许多txt?
当我处理许多txt时,我将txt填充到相同的长度(20len),然后在batch_first中训练torch.nn.LSTM,输入是(1000,20,100),输出是(1000, 20、100),而标签是(1000),我使用crossEntropy ...我知道这是错误的,所以该怎么做