需要一些关于我的SVM功能改进的建议

时间:2010-08-30 15:00:57

标签: artificial-intelligence data-mining

我已经在SVM上训练了一个系统,给出了一个问题,网页是否适合回答这个问题。

我选择的功能是“网页中的术语频率”,“术语是否与网页标题匹配”,“网页中的图像数量”,“网页长度”,“是维基百科页面吗?”, “此网页在搜索引擎返回的列表中的位置”。

目前,我的系统将保持0.4左右的精度并在1处召回。它有很大一部分的误报错误(我的分类器将许多不良链接归类为良好的链接)。

由于准确性可以稍微提高,我想在此考虑一些帮助,考虑改进我为训练/测试选择的功能,可以删除一些或在那里添加更多功能。

提前致谢。

1 个答案:

答案 0 :(得分:1)

嗯...

  • 你的训练有多大?即,您使用了多少份培训文件?
  • 您的测试集是由什么组成的?
  • 由于您获得了太多FP,我会尝试使用更多(和变化的)“坏”网页进行培训
  • 您能否详细介绍一下您的不同功能,例如“网页上的tf”等?