使用stanford NER解析产品数据

时间:2014-03-05 14:05:14

标签: stanford-nlp named-entity-recognition

我尝试使用Stanford NER来解析产品数据。我的培训数据如下所示:

iPhone 4 16GB black
Nikon D5100
Apple iPhone 4s
kindle touch
kindle fire

现在我想用这些数据训练NER,所以我必须先对它进行分类。 Standford网站提供了一个示例,用于解析书籍的一个章节并对新行中的每个单词进行标记。这对我的情况没有帮助,因为数据看起来像:

iPhone
4
16GB
black

“4”不应该换行,但当我把“iPhone 4”排成一行时,NER认为“4”是令牌“iPhone”的类别。

我只需要帮助如何使用产品数据训练NER。你会建议什么?你会将“iPhone”分类为“手机”,将“iPhone 4”分类为“手机”吗?

1 个答案:

答案 0 :(得分:0)

我想知道你是否能够使用传统(非递归)命名实体有效地提取信息。在我看来,你可能需要更有条理的东西,如:

<phone>
    <model> iPhone <model>
    <version> 4 </version>
    <capacity> 16GB <capacity>
    <color> black </color>
</phone>

如何在this paper中描述如何使用CRF识别结构化命名实体。基本上,它为每个实体类型学习一个CRF,并结合后验概率(来自每个单独的CRF)来识别结构化命名实体。

确实,这需要一些语料库再造,因为实体应该有足够的结构来训练语料库...