我有大量的非结构化文本语料库(在这里我已经按照以下说明进行了清理和标记化。
Unstructured text
-> cleaning the data
-> get only the informative words
-> calculate different features
示例(考虑我只有5个字):
Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
对于每个单词,我也都有功能(考虑到我只有3个功能)
Features = {Frequency, TF-IDF, MI}
但是,我不确定在训练seq2seq模型时是否可以使用这些功能。
我的输出是内容丰富的单词的排名列表。
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}
在当前教程中,我关注的是它们有多个培训示例,例如;
X=[22, 17, 23, 5, 29, 11] y=[23, 17, 22]
X=[28, 2, 46, 12, 21, 6] y=[46, 2, 28]
X=[12, 20, 45, 28, 18, 42] y=[45, 20, 12]
X=[3, 43, 45, 4, 33, 27] y=[45, 43, 3]
X=[34, 50, 21, 20, 11, 6] y=[21, 50, 34]
但是在我的问题中,我只有一个输入序列和一个输出序列。
示例:
Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}
因此,我有点困惑如何定义我的体系结构?还是我可以将其他ML / DL模型用于任务?