在weka中设置具有1024个属性的数据集

时间:2018-10-23 23:59:04

标签: image dataset weka

我是weka的初学者,我有一个训练数据集,其中包含许多实例,每个实例具有1024个二进制文件,这些二进制文件显示32 * 32黑白图像的像素,每个实例实际上是代表一个字母的图像字母AZ,索引为1到25(25个类) 如何在weka中设置此数据集? 我的意思是我应该写1024个属性和25个类吗?

1 个答案:

答案 0 :(得分:0)

如果我对您的理解正确,则您的实例包含1024个二进制值(用于对数据进行分类)和25种可能的分类*。

假设您以逻辑方式保存数据,即使用逗号分隔所有不同的值,则可以将数据导入Excel。这将导致您的数据分成1025个不同的列,包含您的二进制信息的1024列,最后一个包含字母的第1025列。

然后,您可以在WEKA GUI客户端中打开CSV文件,也可以将CSV文件转换为ARFF文件以备将来使用,无论您愿意使用哪种方式。

以下使用几天前收集的一些原始数据在图像中说明了上述步骤(原始数据(.txt)->数据处理(CSV)->输入WEKA(ARFF)):

Raw data (TXT)

Processing the data (.csv)

Final data(.arff)

*拉丁字母中的所有字母都应该不是26吗?