text classificion:我的数据有多少维度?

时间:2016-11-07 11:25:50

标签: text-classification

我使用单词包模型对文本进行分类。我读了800个文本文件,每个文件都包含一个句子。

然后句子表示如下:

[{"OneWord":True,"AnotherWord":True,"AndSoOn":True},{"FirstWordNewSentence":True,"AnSoOn":True},...]

我的数据有多少维度?

是最大向量中的条目数吗?或者是独特单词的数量?或其他什么?

1 个答案:

答案 0 :(得分:1)

对于每个文档,单词包模型都有一组稀疏功能。例如(在您的示例中使用您的第一个句子):

OneWord
AnotherWord
AndSoOn

以上三个是文档的三个active功能。它很稀疏,因为我们从未明确列出这些inactive特征。我们有一个非常大的词汇表(所有可能的独特单词,您认为是特征)。换句话说,我们没有说:

OneWord
AnotherWord
AndSoOn
FirstWordNewSentence: false

我们只包含那些" true"的字词。

  
    

我的数据有多少维度?     它是最大向量中的条目数吗?或者是独特单词的数量?或其他什么?

  

如果您坚持使用稀疏要素表示,则可能需要估算每个文档的平均活动要素数。在你的例子中,这个数字是2.5((3 + 2)/ 2 = 2.5)。

如果您使用密集表示(例如,one-hot encoding,但如果词汇量很大,则不是一个好主意),输入维度等于您的词汇量。< / p>

如果您使用具有100维度的单词嵌入并组合所有单词&#39;嵌入以形成新的输入向量来表示文档,然后您的输入维度为100。在这种情况下,您可以通过嵌入将稀疏要素转换为密集要素。