Question

我使用单词包模型对文本进行分类。我读了800个文本文件，每个文件都包含一个句子。

然后句子表示如下：

[{"OneWord":True,"AnotherWord":True,"AndSoOn":True},{"FirstWordNewSentence":True,"AnSoOn":True},...]

我的数据有多少维度？

是最大向量中的条目数吗？或者是独特单词的数量？或其他什么？

Answer 1

对于每个文档，单词包模型都有一组稀疏功能。例如（在您的示例中使用您的第一个句子）：

OneWord
AnotherWord
AndSoOn

以上三个是文档的三个active功能。它很稀疏，因为我们从未明确列出这些inactive特征。我们有一个非常大的词汇表（所有可能的独特单词，您认为是特征）。换句话说，我们没有说：

OneWord
AnotherWord
AndSoOn
FirstWordNewSentence: false

我们只包含那些＆＃34; true＆＃34;的字词。

我的数据有多少维度？     它是最大向量中的条目数吗？或者是独特单词的数量？或其他什么？

如果您坚持使用稀疏要素表示，则可能需要估算每个文档的平均活动要素数。在你的例子中，这个数字是2.5（（3 + 2）/ 2 = 2.5）。

如果您使用密集表示（例如，one-hot encoding，但如果词汇量很大，则不是一个好主意），输入维度等于您的词汇量。< / p>

如果您使用具有100维度的单词嵌入并组合所有单词＆＃39;嵌入以形成新的输入向量来表示文档，然后您的输入维度为100。在这种情况下，您可以通过嵌入将稀疏要素转换为密集要素。