我正在使用libsvm来预测情绪。我想知道输入必须是什么格式 假设我使用字数。
[label] [index]:[value] [index]:[value]
这是libsvm所需的格式。那么这是否意味着我只有两个标签(一个用于正面,一个用于负面),索引是该标签下的每个单词,值是每个单词的频率?
这是否也意味着我需要存储word到index的映射以在我的测试集中使用?
答案 0 :(得分:2)
LIBSVM使用所谓的“稀疏”格式,其中不需要存储零值。因此具有属性
的数据
5 0 2 0
表示为
1:5 3:2
因此,您只需要指定非零属性的索引和值。
标签站在第一列。对于二进制情况,您可以使用+1表示正数,-1表示负数样本。顺便说一句,您不仅限于2个标签。您可以使用其他数字(例如1,2,3,4,5,...)
答案 1 :(得分:0)
请查看libsvm中给出的示例文件。它被称为heart_scale。关注......这是一个很好的例子......