基于句子的标记化,并加入简历数据行

时间:2018-11-29 11:35:14

标签: split stringtokenizer ner

您好,我正在为不同的代码(例如:-

Theni官立女子高级中学的高级中学 2008年至2013年,来自美国官立女子高中 Theni 2007年-2009年。 坎普尔研究所Singapet Collage的B.Tech 2015-2018年 98.8%。从Himanchal技术大学Himanchal 20017-2019获得理学学士学位,占79.5%。

我完成了安娜大学的技术学士学位,2006年8月-2010年5月 化学工程CGPA -7.5 / 10 我的方法是

from collections import OrderedDict
wordsize = OrderedDict()
with open("/home/samle.txt") as lines:
    for line in lines:
        wordsize[line.replace('\n','')] = len(line.split(' '))
    #print(wordsize)
temp = ""
final = []
for k , v in wordsize.items():
    if(v>5):
        if temp =="":
            temp = k;
        else:
            temp = temp+k;
    else:
        temp = temp +k;
        final.append(temp)   
        temp = ""
print(final)

0 个答案:

没有答案