tf-idf =术语频率*反文档频率
术语频率 定义为文档中术语的计数。
反文档频率 定义为文档总数除以包含单词的文档数。
上面的公式可能会有所不同,但这就是全局。 现在,假设我有一个包含一百万个句子的列表的数据集:
1)文档是数据集中的一个条目吗?
2)整个数据集是语料库吗?
问题某种程度上与[1]有关,但是答案并没有帮助我理解真实数据集的概念。
谢谢。
答案 0 :(得分:0)
在您的特殊情况下,如果句子不相关,则将每个句子称为“文档”。
更详细地讲,TF表示当前示例中经常使用该术语(以避免使用术语“文档”)。 DF表示在每个样本中一个术语都很频繁。则TF / DF的商返回一个在整个集合中很少使用的术语的高数字(表明它们是重要的),而对于一个通用术语返回一个小数字。