Question

我有大量的非结构化文本语料库（在这里我已经按照以下说明进行了清理和标记化。

Unstructured text-> cleaning the data-> get only the informative words-> calculate different features

示例（考虑我只有5个字）：

Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}

对于每个单词，我也都有功能（考虑到我只有3个功能）

Features = {Frequency, TF-IDF, MI}

但是，我不确定在训练seq2seq模型时是否可以使用这些功能。

我的输出是内容丰富的单词的排名列表。

Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}

在当前教程中，我关注的是它们有多个培训示例，例如；

X=[22, 17, 23, 5, 29, 11] y=[23, 17, 22]
X=[28, 2, 46, 12, 21, 6] y=[46, 2, 28]
X=[12, 20, 45, 28, 18, 42] y=[45, 20, 12]
X=[3, 43, 45, 4, 33, 27] y=[45, 43, 3]
X=[34, 50, 21, 20, 11, 6] y=[21, 50, 34]

但是在我的问题中，我只有一个输入序列和一个输出序列。

示例：

Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}

因此，我有点困惑如何定义我的体系结构？还是我可以将其他ML / DL模型用于任务？

编码器-降序模型可预测排名

0 个答案: