我正在尝试从简历(简历)中分离邮政地址。简历来自许多不同的国家,因此没有标准的布局,格式,押韵或地址的理由。
我的原始数据已被分段为句子和标记,并且已准备好进行标记。
问题:
惠斯特城/镇是我最感兴趣的,我应该在整个地址上标记以获得最佳效果吗?
eg blah blah blah <START:location>1 Stack Avenue, London, SE1 KTB<END> blah blah
eg blah blah blah <START:location>Hoch Strasse 21, Berlin 17009, Germany<END> blah blah
鉴于我寻求的地址主要出现在CV的前四分之一,我是否应该将训练数据减少到25%并对实时数据进行相同的处理,或者通过将文档作为一个整体保存来获得更好的结果只是标记我需要的位?
最后关于成功程度的任何想法我都可能从没有结构化文件中找到地址?
建议,帮助和替代方法非常感谢。
答案 0 :(得分:0)
我的建议是将其标记为
1 Stack Avenue, <START:location> London, SE1 KTB <END> .
Hoch Strasse 21, <START:location> Berlin 17009, Germany<END>
但是你需要考虑适当的功能。例如,在您的示例中,前一个单词以逗号结尾。你显然想要上一个单词,但也许是像“过去4个单词中的数字一样的功能。不要忘记以前的状态。你可能想要保留像”avenue,street“这样的词典或其他语言中的等价词典(Strasse?) 。
祝你好运