我正在研究一个简单朴素的贝叶斯分类器,我有一个关于它的概念性问题。
我知道训练集是非常重要的,所以我想知道在下面的例子中什么构成了良好的训练集。假设我正在对网页进行分类并得出结论是否相关。此决策所依据的因素考虑了该页面上存在的某些属性的概率。这些将是某些增加页面相关性的关键字。关键字是苹果,香蕉,芒果。相关/不相关的分数适用于每个用户。假设用户同样可能标记相关/不相关的页面。
现在对于训练数据,为了获得分类器的最佳训练,我是否需要获得与无关结果相同数量的相关结果?我是否需要确保每个用户都有相关/不相关的结果,以便他们制作出良好的训练集?我需要记住什么?
答案 0 :(得分:1)
这是一个有点无穷无尽的话题,因为涉及数百万个因素。 Python是一个很好的例子,因为它驱动了大部分的goolge(据我所知)。这让我们走到谷歌的最初阶段 - 几年前有一次对Larry Page的采访,他在谷歌之前谈到了搜索引擎 - 例如当他输入“大学”这个词时,他发现的第一个结果就是在它的标题中有几次“大学”。
回到朴素的贝叶斯分类器 - 有一些非常重要的关键因素 - 假设和模式识别。和关系当然。例如,你提到苹果 - 可能有一些可能性。例如: 苹果 - 如果吃,维生素和形状存在,我们假设我们最有可能谈论水果。 如果我们提到电子产品,屏幕,也许史蒂夫乔布斯 - 这应该是显而易见的。 如果我们谈论宗教,上帝,花园,蛇 - 那么它必须与亚当和夏娃有关。
因此,根据您的需求,您可以拥有一个基本的数据段,其中每个都属于这些数据,或者包含更多详细信息的复杂结构。所以是的 - 你基于简单假设的大部分基础。基于这些,您可以创建更复杂的模式以进一步识别 - Apple-iPod,iPad - 在其名称中具有相似的模式,包含类似的关键字,提及某些人 - 最有可能彼此相关。
不相关的数据非常难以发现 - 在这一点上,您可能认为我拥有多个Apple设备,在大型iMac上书写,而这可能不是事实。所以这将是一个非常错误的假设。因此,在得出确切的结论之前,分类器本身必须进行非常好的分割和分析。