什么"记录"在NLP环境中意味着什么?

时间:2017-01-19 18:48:57

标签: text nlp text-mining tf-idf data-science

当我在Wiki上阅读tf–idf时,我对“#34;文件"”这个词的含义感到困惑。这是否意味着段落?

"逆文档频率衡量单词提供的信息量,即该术语在所有文档中是常见的还是罕见的。它是包含单词的文档的对数缩放的反向分数,通过将文档总数除以包含该单词的文档数得到,然后取该商的对数。"

2 个答案:

答案 0 :(得分:2)

Document上下文中的

tf-idf通常可以被视为bag of words。在vector space model中,每个单词都是一个非常高维空间中的维度,其中单词向量的大小是文档中单词(术语)出现的次数。 Document-Term矩阵表示矩阵,其中行表示文档,列表示术语,矩阵中的每个单元表示文档中单词的#recements。希望它清楚。

答案 1 :(得分:0)

A"文件"是一个独特的文字。这通常意味着每篇文章,书籍等都是自己的文档。

如果您愿意,您可以将单个段落甚至句子视为"文档"。这完全是一个观点问题。