在正常的机器学习问题中,您会获得许多功能(例如: - 如果您正在制作图像识别器),因此当有许多功能时,您无法将数据可视化(您无法绘制图形)。因此,如果没有绘制图表,有没有办法确定我们应该对该问题使用什么程度的假设函数? 如何确定最佳假设函数? 例如: -
如果有2个输入x(1),x(2)。
是否选择(w0)+ x(1)* w(1)+ x(2)* w(2)作为假设函数或
w(0)+ x(1)* w(1)+ x(2)* w(2)+ x(1)* x(2)* w(3)+(x(1)^ 2 )* w(4)+(x(2)^ 2)* w(5)
作为假设函数:其中w(0),w(1),w(2),w(3)......是权重。
答案 0 :(得分:7)
要应用的第一个主要步骤是要素选择或要素提取(维度降低)。这是一个预处理步骤,您可以使用某些相关性指标(如相关性,互信息作为mRmR)来应用。此外,还有其他方法受到数值线性代数和统计学领域的刺激,例如主成分分析,用于根据某些假设找出描述空间的特征。
您的问题与机器学习领域的主要问题有关,称为模型选择。了解使用程度的唯一方法是尝试不同程度的模型(d = 1,d = 2,...),记住以下内容:
1-过度拟合:您需要确保限制变量的范围(在您的情况下为Ws),以避免过度拟合。此解决方案称为正则化。另外,尽量不要像ANN那样长时间训练分类器。
2- Prapring 培训,验证和测试集。培训用于培训模型,验证用于调整参数,测试用于比较不同的模型。
3-正确选择效果评估指标。如果您的训练数据不均衡(即为目标变量的每个值或类标记分配的样本数量几乎相同),则准确性不是指示性的。在这种情况下,您可能需要考虑敏感性,特异性或Mathew相关性。
实验是关键,实际上你受资源的限制。然而,正确的实验设计可以满足您的目的。