斯坦福被命名为实体标签 - 不一致?

时间:2014-07-31 02:43:12

标签: stanford-nlp named-entity-recognition named-entity-extraction

我有一个奇怪的问题。

我有一个句子列表(大约10万),希望使用stanford命名实体识别(ner)标记进行标记。我使用stanford ner演示网站(Java演示代码)提供的以下代码行进行标记。

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

我认为一切正常,直到我手动检查了一些根本没有标记的句子,这些句子应该被标记。但是当这些没有标记的句子被手工挑选到一些样本列表中并使用上面的代码进行测试时,它们就会被标记出来。所以我在错误的地方感到困惑。未正确标记的句子类似于1000-1500个句子。因此,当我在单独的列表中运行这些错误标记的句子时,它们会被标记。数据集的大小(0.1百万)是否对分类器有影响?

例如: 考虑以下句子 - &#34; IBM公司简介&#34; 我的10万个数据集中存在相当多的句子。因此,当我在10万个数据集上使用上述代码进行标记时,许多像这样的句子根本就没有标记。但是,当我手动挑选这些并放入列表然后进行标记时,它们就会被标记。

我已经尝试了所有方法,并且在标记整个数据集时,我最终得到的结果是没有标记上述句子。

我尝试了以下3种不同的方式 1. classifier.classifyToString(inputString,&#34; slashTags&#34;,false) 2. classifier.classify(inputString) 3. classifier.classifyToCharacterOffsets(inputString)

我出错的任何想法或建议?

由于

1 个答案:

答案 0 :(得分:0)