我正在尝试提取定义以及该定义附带的文本。
定义提取相对容易,因为它们通常在括号和引号中,因此我可以运行正则表达式来查找它们。
我遇到麻烦的部分是获取与定义一起出现的文本-通常会在定义之前显示,但是我不知道其中会有多少个单词。
例如:
”(a)公司具有执行和交付本协议,履行其在本协议项下的义务以及在收到公司必需的表决权之后完成交易的必要的公司权力和权力。执行,交付和履行公司对本协议的同意以及公司对交易的完成已得到公司董事会的正式授权,并且公司无需采取其他任何公司行动来授权公司对本协议的执行和交付,合并计划及其完成的交易,在每种情况下,仅在本协议,合并计划和交易的批准和批准的前提下,以下列方式进行:(i)以代表在股东大会上亲自或以代理人身份出席并进行表决的股份的至少三分之二表决权的股东,(ii)代表本公司已发行股份的总投票权的多数的股份持有人的赞成票通过的股东大会决议案;以及(iii)持有已发行A类股份总数的多数的股东通过赞成票的决议案(第(i),(ii)和(iii)节,统称为“必需的公司表决权”),在每种情况下均应符合CICL第233(6)条和公司第九条经修订和重述的公司章程,于2015年12月28日通过特别决议通过(“公司条款”)。本协议已由公司妥善有效地执行和交付,并且在获得母公司和合并子公司的适当授权,执行和交付的情况下,构成了公司的法律,有效和约束力的义务,可根据其条款对公司执行,但受破产,破产,欺诈转移,重组,暂停和类似或与债权人权利和一般权益原则有关的普遍适用法律(“破产与权益例外”)的约束。”
我们提取了三个定义:“ 必需的公司投票”,“ 公司文章”和“ 破产与股权例外”。
“ 必需的公司投票”看起来该定义应为“(i),(ii)和(iii)的总和”,但实际上也应该添加“(a)小节”或我实际上应该抓住第(i),(ii)和(iii)条款的案文
“ 公司章程” 应为“ 2015年12月28日特别决议通过的《公司章程的第九条经修订和重述》”
“ 破产与权益例外”看起来应该是“破产,破产,欺诈转移,重组,暂停执行和类似的与或影响债权人权利和一般原则的普遍适用法律股本”
这只是三个示例,我必须构建足够动态的东西以能够处理不同类型的定义。
我首先使用NLTK和语法来构建名词短语,但即使测试各种不同的语法,NP似乎也无法捕获我所需的一切。我曾考虑过使用编辑距离测量-可能是先逐字建立字符串并测试距离,但是我能想到的所有事物似乎都有自己的缺陷,因此我在寻找想法。