我试图了解一种类似于a paper about embedding medical concepts in an embedding layer before inputting to an LSTM中所做的LSTM。
相关人物的屏幕截图如下:
本质上,论文指出:
1)有1837个代表医学概念的特征。这些概念是文本医疗代码,例如“ CPT 9002”
2)将这1837个要素放入一个嵌入层,其输出为(1837,Demb-1)
3)然后将这些特征的频率向量与该输出连接起来,使输出的总尺寸(1837,Demb)
我的问题是:医学数据非常稀疏,通常只有一小部分医学概念会在特定的时间步出现。例如,1837个功能中只有10个具有一个时间步长的数据。那么如何为该嵌入层创建此输入呢?
如果只有10个要素具有数据,则嵌入输入将如下所示:
1)长度为1837的向量的复制粘贴,其中包含每个时间步的字符串格式的所有概念?如果是这样,则每个时间步长的唯一微分是频率矢量。在每个时间步输入基本相同的数据的意义何在?
2)长度为10的向量表示可用数据吗?如果是这样,为什么论文会说输出为1837xDemb-1?
3)一个长度为1837的向量,其中包含概念的频率?如果是这样,为什么在输出实质上包含频率信息的情况下,为什么需要将频率连接到输出呢?
我真的很困惑如何在实践中创建输入向量。