我们正在使用NER模型来识别像组织,百分比,金钱,数量等实体 - 我们想要添加一个实体(我认为我们不能扩展模型)或构建另一个模型来标记这些实体(我们希望对金融证券进行分类)。 我刚开始看这个并且已经使用了目前可用的模型。
我在看https://nlp.stanford.edu/software/crf-faq.shtml#a 开始使用自定义模型是否需要查看示例数据文件?
这是否仍然意味着唯一可以标记的实体是已经可用的实体,如组织,日期,金钱,位置...
是否需要对java文件进行任何更改,即我应该从哪些方面了解分类器的工作原理。
基本上对于某些文字: 2.200%应付票据到期2020年10月30日本金额$ 1,500,000,000.00 $ 186,750.00
I'd like to tag:
<security>2.200% Notes due October 30, 2020</security> the principal amount $ 1,500,000,000.00 $ 186,750.00
答案 0 :(得分:0)
您可以使用以下格式训练新的序列标记器:
Joe PERSON
Smith PERSON
was O
born O
in O
California LOCATION
. O
He O
works O
for O
Apple ORGANIZATION
. O
请注意,它应该是\t
将标记与标记分开。您可以使用任何您想要的标签。然后,统计标记器将能够应用它在训练数据中看到的标记。
如果您在模型jar中查看此文件,您可以看到应该使用的属性文件的完整详细信息:
edu/stanford/nlp/models/ner/english.all.3class.distsim.prop
我应该注意,如果您尝试提取的内容遵循一些基本模式,那么使用基于规则的方法可能会获得更好的结果。
以下是StanfordCoreNLP中基于规则的方法的一些文档: