Question

我正在尝试使用SVMLight来构建一个分类器，以检测名词短语（NP）是否是一个回指。我有我的功能，但我坚持理解输入文件的格式，我应该将我的所有文本翻译成这种格式，或者我只放置代表正实例和负实例的NP。是否有任何软件允许我将我的文件翻译成这种格式。

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float>  //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string>  //Should this contain the NP

另外，对于模型文件，该文件应包含哪些内容？

非常感谢您的帮助。

Answer 1

引用康奈尔关于SVMlight用法的官方文档，以下是输入格式的示例：

-1 1：0.43 3：0.12 9284：0.2

就我所理解的情况而言，这意味着在具有＆＃34;功能的文档中＃34; （在你的情况下说NP），上面的线代表负面情况，feature1的权重为0.43，第三个特征的权重为0.12,9284个特征的值为0.2，所有其他特征的值为0。

关于软件或某些源代码或库来生成这种格式 - 这也是我正在寻找的，因此我无法为您解答。但我希望你能清楚说明格式说明。

SVMLight：我如何构建分类器？

1 个答案: