我目前正致力于一个专注于从维基百科文本语料库中提取关系的项目,我计划使用SVM来提取这些关系。为了对此进行建模,我计划使用Word功能,POS标签功能,实体功能,提及功能等,如下文所述 - https://gate.ac.uk/sale/eswc06/eswc06-relation.pdf(第6页起)
现在,我已经设置了用于特征提取的管道并且已经对语料库进行了注释,并且我希望使用像SVM-Light这样的包来实现项目的目的。根据SVM-Light包的输入文件格式,这是必需的格式 - 。=。 :: ......:#
示例(来自SVM-Light网页) -
在分类模式中,目标值表示示例的类。 +1作为目标值标记为正例,-1分别为负例。所以,例如,行
-1 1:0.43 3:0.12 9284:0.2#abcdef
指定一个负面示例,其中要素编号1的值为0.43,要素编号3的值为0.12,要素编号9284的值为0.2,所有其他要素的值为0.此外,存储字符串abcdef使用向量,可以作为为用户定义的内核提供附加信息的一种方式。
现在,我想知道我们如何模拟我正在使用的功能,其值包括单词,POS标签和实体类型以及子类型到SVM-Light包接受的特征向量中,其中每个要素都有一个实数与之相关的价值。从我选择的功能到这些真实值的映射是如何完成的?
如果之前曾遇到过类似问题的人能够朝着正确的方向努力,那将是非常有帮助的。
感谢。