我得到了如下句子的列表:
他们是我从职位描述中提取的一些句子。我想提取以下信息:学位类型,专业,必需或首选。 有
结果应该是这样的: { 学位:学士, 专业:计算机科学, 必需:是的 }
这些句子中没有明显的规则。我怎样才能实现这个目标?
Bachelor ’ s degree in Computer Science or equivalent
Pursuing B.S. or advanced degree in computer science or related technical/engineering degree .
Bachelor 's Degree in Computer Science or equivalent experience
Youre educated ( BS/MS in Computer Science or other technical degree ) .
•BS in Computer Science , Digital Media or similar technical degree with 3 + years of experience
· Bachelors degree .
Bachelor 's degree in computer science , design or related field
Ability to absorb , master and leverage emerging technologies
BA/BS degree or equivalent practical experience
Education Required : Bachelors Degree
• Bachelor 's degree in related field , OR four ( 4 ) years of experience in a directly related field .
答案 0 :(得分:1)
因此,您正在处理非结构化数据,我希望使用以下步骤,您可以达到相当高的准确度。
分层规则概述:
尝试在每次代码迭代时修改这些规则。继续添加新规则。 这只是基本方法,我相信如果您对方法进行一些迭代,您将能够提取信息。
答案 1 :(得分:0)
您可能需要收集专业和学位列表(例如:http://en.wikipedia.org/wiki/List_of_tagged_degrees)以提取学位和专业。然后基于一些一般规则(或设计分类器决定“必需”或“不需要”)。
答案 2 :(得分:0)
这样做的另一个建议是:
希望这有帮助。