在槌中使用带有朴素贝叶斯分类器的svmlight样式数据

时间:2012-12-19 19:28:21

标签: java svm

我有几个问题要问 1)在svmlight风格的数据中有(目标特征:值特征:值......) 我知道featurevalue是什么,但target是什么?这是什么意思?我想知道这一点,因为我打算制作一个写有这些数据的文本文件。

2)也在一个文件中有多行(目标特征:值特征:值) 每行代表一个文件吗?假设我有50个文档,所以每行代表一个文档?

3)在我生成包含svmlight-style数据的文本文件后,我想将其传递到Naive Bayes Classifier中的MALLET。这会怎么样?

1 个答案:

答案 0 :(得分:1)

根据官方SVMLight网站,训练集由行

组成
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>

其中每一行的定义如下:

<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string> 

“在分类模式下,目标值表示示例的类。目标值+1表示正例,-1表示负例。例如,行

-1 1:0.43 3:0.12 9284:0.2 # abcdef

指定一个负面示例,其中要素编号1的值为0.43,要素编号3的值为0.12,要素编号9284的值为0.2,所有其他要素的值为0.此外,存储字符串abcdef使用向量,可以作为为用户定义的内核提供附加信息的一种方式。类标签为0表示该示例应使用转换进行分类。通过转换分类的示例的预测将写入通过-l选项指定的文件。预测的顺序与训练数据中的顺序相同。 “

有关详细信息,请参阅官方网站http://svmlight.joachims.org/