应用错误收集

我对机器学习很陌生并且我一直在读一本书，其中作者描述了基于实例的学习如下

可能最微不足道的学习形式只是简单地学习。如果您要创建垃圾邮件过滤器   这样，它只会标记所有与用户已标记的电子邮件相同的电子邮件    - 不是最糟糕的解决方案，但肯定不是最好的解决方案。

您的垃圾邮件过滤器可能不是仅仅标记与已知垃圾邮件相同的电子邮件   编程也标记与已知垃圾邮件非常相似的电子邮件。这需要一个衡量标准   两封电子邮件之间的相似性两个电子邮件之间的（非常基本的）相似性度量可以计算   他们共有的单词数量。如果电子邮件有很多单词，系统会将电子邮件标记为垃圾邮件   与已知的垃圾邮件一样。

这称为基于实例的学习：系统通过心脏学习示例，然后推广到新的   使用相似性度量的案例

但是当我使用similar和identical这些词时，我无法完全理解它。我没有理解差异。任何解释将不胜感激。谢谢。

相同的字面意思相同 - 零差异，它是完全匹配。

字符串“aaaaa”和“aaaaa”是相同的。没有其他字符串可以存在，也与“aaaaa”本身不同。

在字面意义上再次使用类似的东西。 “aaaaa”和“aaaab”不相同，它们相差一个字。但它们的相似之处在于它们分享了5个角色中的4个。有许多可能的字符串类似于“aaaaa”。

天真地查看字符串中不同字符的数量是定义相似性的一种方法。

所有基于实例的学习的技巧是回答这个问题：我们如何显式为这个应用程序定义类似的东西。每个应用程序都可能从不同的相似度量中受益，尽管存在一些常见的并且经常重复使用，这并不意味着它们是最佳的。

ML - 基于实例的学习

1 个答案: