我想知道,数据挖掘中什么是直接的MODEL?任何人都可以解释一下吗?
当我使用Weka时,我会获取数据,选择方法并通过单击“开始”按钮生成MODEL。任何人都可以解释这个模型背后的内容以及模型在生成之后的工作原理。它使用我选择的方法来分类示例?
请有人解释这些事情吗?
答案 0 :(得分:3)
该模型仅描述了在尝试处理新数据时使用的信息。在简单的垃圾邮件检测方案中,算法确定哪些单词似乎指向垃圾邮件,哪些单词不是通过查看带注释的电子邮件。然后,单词列表构成您的模型。
收到新电子邮件时,您不会将其与其他真实电子邮件进行比较,而是会考虑新电子邮件的字词,并检查您的模型(字词列表)是否表示垃圾邮件。你看,你变得独立于你的训练数据,而是你有一个知识,试图建立整个“垃圾邮件与非垃圾邮件”的真实性。
答案 1 :(得分:0)
假设只有以下与音乐相关的变量:吉他独奏(有/没有),突然音调变化(有/没有),有声(有/没有,男/女),鼓(有/没有,常规/电子)。
现在,让我们假设你喜欢音乐,因为它有吉他独奏,有突然的音调变化,有女声和电子鼓。另一方面,我欣赏音乐,当它有吉他独奏,突然音调变化,没有人声,并有常规鼓)。
这些偏好可以被视为我们欣赏音乐的模型。
现在,假设有一首歌有吉他独奏,突然的音调变化,女声和电子鼓。如果我们要告诉你是否喜欢这首歌,答案是肯定的,这是100%的匹配。但是我呢?好吧,我欣赏这首歌的5个特征中的3个,所以我很可能会喜欢它。
我们上面提到的关于欣赏或不赞赏这首歌的答案可以被视为机器学习中的classification任务。现在,如果我们必须将每个人的音乐偏好和上面的音乐特征分组,我们将成为clustering音乐听众,等等。
我们如何建立某种模型?当然,从数据。当您使用Weka时,您的.arff文件包含您的训练数据,Weka用它来了解这些数据描述的内容(在我们的示例中,它将学习我们的音乐偏好)。
学习过程生成一个模型,用于对新数据进行分类,对它们进行分组等。例如,如果我们为Weka提供了我们的音乐偏好并指示它使用贝叶斯分类器学习我们的模型,那么当我们提供它时通过给定歌曲的特征,它将能够判断我们是否喜欢该歌曲,以及在什么概率内。