我使用单词包模型对文本进行分类。我读了800个文本文件,每个文件都包含一个句子。
然后句子表示如下:
[{"OneWord":True,"AnotherWord":True,"AndSoOn":True},{"FirstWordNewSentence":True,"AnSoOn":True},...]
我的数据有多少维度?
是最大向量中的条目数吗?或者是独特单词的数量?或其他什么?
答案 0 :(得分:1)
对于每个文档,单词包模型都有一组稀疏功能。例如(在您的示例中使用您的第一个句子):
OneWord
AnotherWord
AndSoOn
以上三个是文档的三个active
功能。它很稀疏,因为我们从未明确列出这些inactive
特征。我们有一个非常大的词汇表(所有可能的独特单词,您认为是特征)。换句话说,我们没有说:
OneWord
AnotherWord
AndSoOn
FirstWordNewSentence: false
我们只包含那些" true"的字词。
我的数据有多少维度? 它是最大向量中的条目数吗?或者是独特单词的数量?或其他什么?
如果您坚持使用稀疏要素表示,则可能需要估算每个文档的平均活动要素数。在你的例子中,这个数字是2.5((3 + 2)/ 2 = 2.5)。
如果您使用密集表示(例如,one-hot encoding,但如果词汇量很大,则不是一个好主意),输入维度等于您的词汇量。< / p>
如果您使用具有100维度的单词嵌入并组合所有单词&#39;嵌入以形成新的输入向量来表示文档,然后您的输入维度为100。在这种情况下,您可以通过嵌入将稀疏要素转换为密集要素。