我正在尝试研究如何实现一些机器学习库,以帮助我找出每个参数的正确权重,以便做出正确的决定。
更详细:
上下文:尝试为html文件实现发布提取器的日期。这是针对新闻网站的,所以我没有可以使用的通用日期格式。我在python中的dateutil中使用解析器,这做得非常好。我最终得到了一个可能的发布日期列表(html文件中的所有日期)。
从一组参数中,例如关闭标记,接近日期子字符串的单词等。我根据作为发布日期的可能性对列表进行排序。每个参数的加权都是以某种方式进行了有根据的猜测。
我想实现一种机器学习算法,在训练期间(其中提供实际发布日期)之后,它确定每个参数的权重应该是什么。
我一直在阅读python(pyML,scikit-learn,pybrain)中不同机器学习库的文档,但我没有找到任何有用的东西。我还阅读了this,这是一个确定蘑菇是否可以食用的近似例子。
注意:我正在使用python。
我非常感谢你的帮助。
答案 0 :(得分:11)
答案 1 :(得分:2)
假设您需要机器学习(文档集足够大,新闻站点的数量足够大,以致每个站点编写解析器很笨重,URL不包含任何明显的发布日期标记,HTTP Last-Modified标头是不可靠的等等) - 你可能会考虑这样的方法: