标签: lstm multiclass-classification document-classification
我正在一个项目上,该项目需要我开发一个模型,该模型以日志文件作为输入,并输出标识日志的标签,类似于文档分类。我创建了一个可能包含在日志文件中的所有单词的词汇表,词汇量约为2k-2.5k。但是,日志文件中的单词数确实很大(大约0.3-0.5百万)。鉴于词汇量不大,是否有一些特征简化技术可以使我使用LSTM这样的序列模型处理如此大的文档?