Question

目前正在使用我自己使用Weka找到的数据集处理数据挖掘项目。唯一的问题是从csv格式获取我的文件并将其转换为arff格式会导致问题。

java.io.IOException: wrong number of values. Read 2, expected 5, Read Token[EOL], line 3

这是我得到的错误。我浏览了网上寻找类似的问题，并试图删除引发此异常的所有引号和特殊字符。我看到的每个地方都告诉我删除特殊字符，我相信没有剩下的。我的数据集链接位于：https://docs.google.com/spreadsheets/d/1xqEe7MZE9SdKB_yvFSgWeSVYuDrq0b31Eu5oECNbGH0/edit#gid=1736568367&vpid=A1

这是我文件的前三行，第一行是属性名称，文件用逗号分隔

不平等调整后的HPI排名，子区域，不平等调整后的预期寿命，不平等调整后的福利，足迹，不平等调整HPI

1,1,73.1,6.9,2.5,48.2

2,6,65.17333333,5.487667631,1.390974448,45.97489063

Answer 1

如果使用文本编辑器打开文件，您将看到Footprint周围有引号。删除引号，你很高兴！

Weka在阅读包含特殊字符的CSV文件时通常不太好，而ARFF文件通常更容易使用。因此，在这种情况下，最简单的方法是使用R将CSV文件转换为ARFF文件（“RWeka”和“外部”库可以处理此转换）。

Answer 2

还有另一种可能性。我正在创建我的CSV文件，并且与其他数据相比，标头具有不同数量的元素。所以，检查标题......！