词汇处理器功能

时间:2016-10-03 05:24:53

标签: python tensorflow text-classification

我正在研究有关卷积神经网络的嵌入输入,我理解Word2vec。但是,在CNN text classification中。 dennybritz使用函数learn.preprocessing.VocabularyProcessor。在document。他们说它将文档映射到单词id的序列。我不太清楚这个功能是如何工作的。它是否会创建一个Ids列表然后用单词映射Ids或者它有一个单词及其ID的字典,当运行函数时它只给出ID?

1 个答案:

答案 0 :(得分:18)

假设您只有两个文档I like pizzaI like Pasta。你的整个词汇由这些单词(I, like, pizza, pasta)组成。对于词汇表中的每个单词,都有一个与之相关的索引(1,2,3,4)。现在给出像I like pasta这样的文档,它可以转换为向量[1,2,4]。这就是learn.preprocessing.VocabularyProcessor的作用。参数max_document_length确保所有文档都由长度为max_document_length的向量表示,如果长度小于max_document_length,则填充数字;如果长度大于{max_document_length,则剪切它们{1}}希望这有助于你