我想要一种直观方式来理解为什么TF-IDF词汇表中的每个单词都表示为单独的维度。
为什么我不能将所有单词的TF-IDF值加在一起并将其用作文档的表示?
我对我们为什么这样做有基本的了解。
Apples = / = Oranges
但显然我不能很好地说服其他人!
答案 0 :(得分:1)
最终所有的NLP都是武断的。如果你想为短语/句子/文档中的所有单词添加tf-idf值,并且发现结果数字对于你试图做的某些任务很有用,你可以自由地这样做。但是这个数字可能对大多数标准NLP任务非常有用,例如搜索,摘要,情感分析等。用单个数字来表示短语/句子/文档的含义很难。
通过将词组/句子/文档表示为向量,词汇表中的每个单词都有一个单独的行,您可以利用向量/矩阵代数来表示在解决NLP问题时可能要执行的一些标准操作。例如,您可以计算表示2个文档的向量之间的余弦相似度,并使用它来判断这2个文档的相似程度。
您可能感兴趣的其他内容:有一个名为word2vec的NLP概念,它允许您将每个单词表示为不同的数字向量,然后允许您添加/减去它们以发现它们之间的语义关系。
例如,它可能会说
king - man + woman ≈ queen
您可以在https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/
了解详情