我有一个约250000条酒店评论的评论数据集,我正在计划使用crfsharp dll从中提取方面,但是我的数据是普通文本段落形式,我需要将其转换为格式crfsharp所以我可以训练和测试数据以提取方面。那么有人可以告诉我最好的方法是什么,我正在考虑编写一个用于数据格式转换的小程序。 另一件事我想知道CRF是否可以使用crf模型进行方面提取?我正在使用c#。
答案 0 :(得分:0)
您在任务中使用的功能和标签是什么? 有一个最简单的例子。对于一个句子"!东京和纽约是主要的金融中心。"如果您想从中提取位置名称,并且您的唯一功能是令牌字符串,则可以生成以下培训语料库:
!也不 东京位置 和NOR 新的位置 约克位置 是NOR 主要的NOR 金融NOR 中心NOR 。 NOR
第一列是句子的术语,第二列是相应的标签。 NOR表示正常术语,LOCATION表示位置名称。您可以按上述格式生成训练语料库,并使用CRFSharp训练模型。
对于更复杂的示例,例如更多功能,模板,在标签中添加单词位置,您可以参考CRFSharp主页(http://crfsharp.codeplex.com)中的另一个示例。