tf-idf中的文档和语料库是什么?

时间:2019-06-02 13:24:38

标签: machine-learning nlp vectorization tf-idf tfidfvectorizer

tf-idf =术语频率*反文档频率

术语频率 定义为文档中术语的计数。

反文档频率 定义为文档总数除以包含单词的文档数。

上面的公式可能会有所不同,但这就是全局。 现在,假设我有一个包含一百万个句子的列表的数据集:

1)文档是数据集中的一个条目吗?

2)整个数据集是语料库吗?

问题某种程度上与[1]有关,但是答案并没有帮助我理解真实数据集的概念。

谢谢。

[1] What does "document" mean in a NLP context?

1 个答案:

答案 0 :(得分:0)

在您的特殊情况下,如果句子不相关,则将每个句子称为“文档”。

更详细地讲,TF表示当前示例中经常使用该术语(以避免使用术语“文档”)。 DF表示在每个样本中一个术语都很频繁。则TF / DF的商返回一个在整个集合中很少使用的术语的高数字(表明它们是重要的),而对于一个通用术语返回一个小数字。