我正在尝试使用LSTM神经网络对生物序列进行一些二元预测。但是由于某种原因,序列中有一些元素无法分配给我的任何类标签。我的第一个想法是简单地跳过元素,但在使用旨在捕获长期依赖关系的方法时,它似乎不是一个好的方法。你有过类似的问题吗?
更具体一点:
DEAQFKECYDTCHKECSDKGNGFTFCEMKCDTDCSVKDVKEKLENYKPKN
是一个示例序列
00000000000000000000000000000000XXX111111111111111
是序列的类标签。 X表示无法确定真实的类标签。它可以出现在序列中的任何位置,而不仅仅是在具有不同标签的两个区域之间,如示例所示。