Python搜索特定单词并以间歇单词序列的边界显示它们

时间:2015-03-17 14:55:41

标签: python regex

我有一个带有POS标签的中文句子,并且有一个与之关联的项目集。

'另外/c ,/wd 宝来/nz 所/usuo 具有/v 的/ude1 麦弗逊式/n ,/wd 螺旋/n 弹簧/n ,/wd 筒式/n 减振器/n ,/wd 带/v 稳定杆/nz //w 纵向/n 托臂式/n ,/wd 螺旋/n 弹簧/n ,/wd 筒式/n 减振器/n ,/wd 带/v 稳定杆/nz 悬挂/n 系统/n 明显/ad 比/p 思域/nz 的/ude1 麦弗逊式/n 独立/ad 悬架/nz 、/wn 双横臂式/n 独立/ad 悬架/nz 系统/n 的/ude1 乘坐/v 舒适性/n (/wkz 空间/n 不够/a )/wky 更/d 好/a !/wt'

套装

['宝来', '麦弗逊式', '螺旋弹簧', '筒式减振器', '杆/纵向托臂式', '螺旋弹簧', '筒式减振器', '悬挂系统', '比', '思域', '麦弗逊式', '悬架系统', '乘坐舒适性', '更好']

期望结果

'另外/c ,/wd [宝来/nz] 所/usuo 具有/v 的/ude1 [麦弗逊式/n] ,/wd [螺旋/n 弹簧/n] ,/wd [筒式/n 减振器/n] ,/wd 带/v 稳定 [杆/nz //w 纵向/n 托臂式/n] ,/wd [螺旋/n 弹簧/n] ,/wd [筒式/n 减振器/n] ,/wd 带/v 稳定杆/nz [悬挂/n 系统/n] 明显/ad [比/p] [思域/nz] 的/ude1 [麦弗逊式/n] 独立/ad 悬架/nz 、/wn 双横臂式/n 独立/ad [悬架/nz 系统/n] 的/ude1 [乘坐/v 舒适性/n] (/wkz 空间/n 不够/a )/wky [更/d 好/a] !/wt'

我希望用括号括起句子中的一个或一些单词/标签标记,但由于该句子已经被POS标记,我无法使用re.sub或{中建议的类似方式{3}}。让它更加繁重的是项目的边界(杆/纵向托臂式)不与标记的边界对齐。

请评论解决方案或介绍与此问题相关的任何算法。感谢。

0 个答案:

没有答案