对于第一学期的任务,我应该编写一个脚本,在文件中查找名字和姓氏,并按照原始条目(名字,姓氏)旁边的顺序(姓氏,名字)显示它们名称)。
该文件每行有一个条目,如下所示:“SrđaSlobodanĐINICPOPOVIC”。
我的问题可能很基本,但我被困住了:
re.compile()
和re.search()
我只能获得一个结果。使用re.findall()
我可以获得所有内容,但不能group.()
他们并获得编码错误。如何将原始名称条目(姓氏/名字)连接到新条目(名字/姓氏)。
import re, codecs
file = codecs.open('FILE.tsv', encoding='utf-8')
test = file.read()
list0 = test.rstrip()
for word in list0:
p = re.compile('(([A-Z]+\s\-?)+)')
u = re.compile('((\(?[A-Z][a-z]+\)?\s?-?\.?)+)')
hash1 = {}
hash1[p.search(test).group()] = u.search(test).group()
hash2 = {}
hash2[u.search(test).group()] = p.search(test).group()
print hash1,'\t',hash2