我正在尝试使用SVMLight来构建一个分类器,以检测名词短语(NP)是否是一个回指。我有我的功能,但我坚持理解输入文件的格式,我应该将我的所有文本翻译成这种格式,或者我只放置代表正实例和负实例的NP。是否有任何软件允许我将我的文件翻译成这种格式。
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string> //Should this contain the NP
另外,对于模型文件,该文件应包含哪些内容?
非常感谢您的帮助。
答案 0 :(得分:0)
引用康奈尔关于SVMlight用法的官方文档,以下是输入格式的示例:
-1 1:0.43 3:0.12 9284:0.2
就我所理解的情况而言,这意味着在具有&#34;功能的文档中#34; (在你的情况下说NP),上面的线代表负面情况,feature1的权重为0.43,第三个特征的权重为0.12,9284个特征的值为0.2,所有其他特征的值为0。
关于软件或某些源代码或库来生成这种格式 - 这也是我正在寻找的,因此我无法为您解答。但我希望你能清楚说明格式说明。