当我在Wiki上阅读tf–idf时,我对“#34;文件"”这个词的含义感到困惑。这是否意味着段落?
"逆文档频率衡量单词提供的信息量,即该术语在所有文档中是常见的还是罕见的。它是包含单词的文档的对数缩放的反向分数,通过将文档总数除以包含该单词的文档数得到,然后取该商的对数。"
答案 0 :(得分:2)
Document
上下文中的 tf-idf
通常可以被视为bag of words
。在vector space model
中,每个单词都是一个非常高维空间中的维度,其中单词向量的大小是文档中单词(术语)出现的次数。 Document-Term
矩阵表示矩阵,其中行表示文档,列表示术语,矩阵中的每个单元表示文档中单词的#recements。希望它清楚。
答案 1 :(得分:0)
A"文件"是一个独特的文字。这通常意味着每篇文章,书籍等都是自己的文档。
如果您愿意,您可以将单个段落甚至句子视为"文档"。这完全是一个观点问题。