机器学习:不适合的功能

时间:2014-05-10 05:40:46

标签: machine-learning

我在机器学习领域有一个天真的问题。

我将unigrams作为功能,idf作为功能值。

问题是如何计算确实出现在测试集中并且不出现在列车集中的unigram的idf。 idf公式是以下日志(N / D),其中N - 文档总数,D - 是我们的特定单字组出现的文档数,但是当D = 0时该怎么办。

感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

您可以通过始终向D添加1或其他常量来执行additive smoothing