我对统计分类问题很感兴趣。给定特征向量X,我想将X分类为“是”或“否”。但是,训练数据将根据人为输入实时输入。例如,如果用户看到特征向量X,则用户将基于他们的专业知识分配“是”或“否”。
我不想在参数空间上进行网格搜索,而是希望根据以前提交的数据更智能地探索参数空间。例如,如果在参数空间的一部分中存在密集的“不”的集群,那么在那里继续采样可能没有意义 - 它可能只是更“不”。
我该怎么做呢? C4.5 algorithm似乎在这条小路上,但我不确定这是否可行。
另一个细微之处在于,某些功能可能是指定随机数据。假设特征向量中的前两个属性指定高斯分布的均值和方差。即使所有参数保持相等,用户分类的数据也可能显着不同。
例如,假设算法显示的是添加了高斯噪声的正弦波,其中高斯分布由特征向量中的均值和方差指定。用户被问到“这个图表是否代表正弦波?”平均值或方差中两个非常相似的值仍然可能具有显着不同的图形。
是否有设计用于处理此类情况的算法?
答案 0 :(得分:1)
您正在谈论的设置适合Active Learning的广泛领域。本主题讨论模型构建的迭代过程,并选择接下来要查询的训练样例以优化模型性能。在这里,每个数据点的培训成本大致相同,并且在学习阶段没有额外的可变奖励。
但是,在每次迭代中,如果您的变量奖励是所选数据点的函数,您可能需要查看Multi-Armed Bandits和Reinforcement Learning。
您正在谈论的另一个问题是找到代表您的数据点的正确功能,并且应该单独处理。