标签: machine-learning
我在机器学习领域有一个天真的问题。
我将unigrams作为功能,idf作为功能值。
问题是如何计算确实出现在测试集中并且不出现在列车集中的unigram的idf。 idf公式是以下日志(N / D),其中N - 文档总数,D - 是我们的特定单字组出现的文档数,但是当D = 0时该怎么办。
感谢您的帮助。
答案 0 :(得分:1)
您可以通过始终向D添加1或其他常量来执行additive smoothing。