应用错误收集

我正在研究一个简单朴素的贝叶斯分类器，我有一个关于它的概念性问题。

我知道训练集是非常重要的，所以我想知道在下面的例子中什么构成了良好的训练集。假设我正在对网页进行分类并得出结论是否相关。此决策所依据的因素考虑了该页面上存在的某些属性的概率。这些将是某些增加页面相关性的关键字。关键字是苹果，香蕉，芒果。相关/不相关的分数适用于每个用户。假设用户同样可能标记相关/不相关的页面。

现在对于训练数据，为了获得分类器的最佳训练，我是否需要获得与无关结果相同数量的相关结果？我是否需要确保每个用户都有相关/不相关的结果，以便他们制作出良好的训练集？我需要记住什么？

这是一个有点无穷无尽的话题，因为涉及数百万个因素。 Python是一个很好的例子，因为它驱动了大部分的goolge（据我所知）。这让我们走到谷歌的最初阶段 - 几年前有一次对Larry Page的采访，他在谷歌之前谈到了搜索引擎 - 例如当他输入“大学”这个词时，他发现的第一个结果就是在它的标题中有几次“大学”。

回到朴素的贝叶斯分类器 - 有一些非常重要的关键因素 - 假设和模式识别。和关系当然。例如，你提到苹果 - 可能有一些可能性。例如：苹果 - 如果吃，维生素和形状存在，我们假设我们最有可能谈论水果。如果我们提到电子产品，屏幕，也许史蒂夫乔布斯 - 这应该是显而易见的。如果我们谈论宗教，上帝，花园，蛇 - 那么它必须与亚当和夏娃有关。

因此，根据您的需求，您可以拥有一个基本的数据段，其中每个都属于这些数据，或者包含更多详细信息的复杂结构。所以是的 - 你基于简单假设的大部分基础。基于这些，您可以创建更复杂的模式以进一步识别 - Apple-iPod，iPad - 在其名称中具有相似的模式，包含类似的关键字，提及某些人 - 最有可能彼此相关。

不相关的数据非常难以发现 - 在这一点上，您可能认为我拥有多个Apple设备，在大型iMac上书写，而这可能不是事实。所以这将是一个非常错误的假设。因此，在得出确切的结论之前，分类器本身必须进行非常好的分割和分析。

贝叶斯分类器训练集

1 个答案: