我有一个巨大的文件,其中有这样的行:
“ En la茅草角酒店La terrasse du bar pr's s du lobby ”
如何从文件的行中删除这些Sinographic字符,以便我得到一个新文件,其中这些行只有罗马字母字符? 我在考虑使用正则表达式。 是否有所有罗马字母字符的字符类,例如阿拉伯数字,a-nA-N和其他(标点符号)?
答案 0 :(得分:3)
我觉得这个regex cheet sheet对于这样的情况非常方便。
# -*- coding: utf-8
import re
import string
u = u"En.!?+ 123 g茅n茅ral un tr猫s bon hotel La terrasse du bar pr猫s du lobby"
p = re.compile(r"[^\w\s\d{}]".format(re.escape(string.punctuation)))
for m in p.finditer(u):
print m.group()
>>> 茅
>>> 茅
>>> 猫
>>> 猫
我也是unidecode
模块的忠实粉丝。
from unidecode import unidecode
u = u"En.!?+ 123 g茅n茅ral un tr猫s bon hotel La terrasse du bar pr猫s du lobby"
print unidecode(u)
>>> En.!?+ 123 gMao nMao ral un trMao s bon hotel La terrasse du bar prMao s du lobby
答案 1 :(得分:2)
您可以使用string
模块。
>>> string.ascii_letters
'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
>>> string.digits
'0123456789'
>>> string.punctuation
'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
>>>
您想要替换的代码似乎是中文。如果您的所有字符串都是unicode,则可以使用简单范围[\u4e00-\u9fa5]
来替换它们。这不是整个中国人的范围,但还不够。
>>> s = u"En g茅n茅ral un tr猫s bon hotel La terrasse du bar pr猫s du lobby"
>>> s
u'En g\u8305n\u8305ral un tr\u732bs bon hotel La terrasse du bar pr\u732bs du lobby'
>>> import re
>>> re.sub(ur'[\u4e00-\u9fa5]', '', s)
u'En gnral un trs bon hotel La terrasse du bar prs du lobby'
>>>
答案 2 :(得分:1)
你可以在没有正则表达式的情况下完成。
仅保留ascii字符:
# -*- coding: utf-8 -*-
import unicodedata
unistr = u"En g茅n茅ral un tr猫s bon hotel La terrasse du bar pr猫s du lobby"
unistr = unicodedata.normalize('NFD', unistr) # to preserve `e` in `é`
ascii_bytes = unistr.encode('ascii', 'ignore')
删除除ascii字母,数字,标点符号以外的所有内容:
from string import ascii_letters, digits, punctuation, whitespace
to_keep = set(map(ord, ascii_letters + digits + punctuation + whitespace))
all_bytes = range(0x100)
to_remove = bytearray(b for b in all_bytes if b not in to_keep)
text = ascii_bytes.translate(None, to_remove).decode()
# -> En gnral un trs bon hotel La terrasse du bar prs du lobby