我对机器学习和集群的概念很陌生。我已经安装了Weka,并试图弄清楚它是如何工作的。目前,我的培训数据如下。
@relation weather
@attribute year real
@attribute temperature real
@attribute warmer {yes,no}
@data
1956 , 68.98585 , yes
1957 , 67.52131 , yes
1958 , 65.853386 , no
1959 , 66.32705 , yes
1960 , 65.89773 , no
所以,我正在尝试建立一个模型来预测它是否每年都变暖。
如果我必须预测1961年是温暖还是凉爽,我应该提供下面的测试数据吗?
@relation weather
@attribute year real
@attribute temperature real
@data
1961 , 70.98585
我已经使用我之前提供的训练集删除了我想要预测的柱加热器。我可以使用Weka提供给我的任何算法(J48,BayesNet等)。有人可以帮我解决如何理解这些概念吗?
答案 0 :(得分:0)
您不需要自己制作培训和测试套件,Weka会为您做到这一点。即使你这样做,也不要删除要从测试集中预测的值 - Weka将确保一切正常,但需要实际值来确定预测是否正确并告诉你模型如何进行。
您的问题是一个分类问题,即您想要预测标签"是"或"不"。并非Weka中的所有算法都适用,但不适用的算法是灰色的(如果使用GUI)。
更一般地说,您不可能使用您拥有的数据获得良好的结果。这更像是一个时间序列预测任务(即给出这些过去的值,它将来会如何发展),Weka并没有真正提供这些算法。您可以在Wikipedia找到更多信息。
要使用Weka获得更好的模型,您可以将上一年(或前两年)的温度值添加为功能,但最终听起来您希望使用可以进行时间序列分析和预测的内容。