使用Weka:训练数据可以是多长度吗?

时间:2013-11-16 22:00:10

标签: java csv machine-learning classification weka

相对较新的Weka我想知道是否可能基于包含可变长度数据行的CSV文件来训练分类器。例如,CSV文件如下所示:

1, 2, 3, 4, 3, 2, 1
1, 2, 4, 3, 2, 1
...

虽然基本,但这两条线都显示出清晰的图案。 Weka分类器是否可以有效地处理CSV文件,如果它收到类似的模式,那么它会是什么样的?

2 个答案:

答案 0 :(得分:1)

没有。您需要明确指定哪个功能缺少值。例如,如果

1,2,3,4,3,2,1 is a row with all data; then
1,,2,4,3,2,1  is another row in which the 2nd feature is missing value. 

答案 1 :(得分:1)

简而言之 - 不,这是一个难以解决的问题,不能简单地使用默认的WEKA模型。这样的数据需要预处理以获得WEKA可以处理的固定长度表示(可以具有缺失值)或使用可以处理这些数据的一些更复杂的模型。它看起来像一个时间序列,所以你应该寻找可以使用它的工具/模型。我建议查看DTW(动态时间扭曲)和使用自定义距离测量(例如KNN)而不是原始数据表示的分类器。