识别并删除奇怪的字符

时间:2013-04-21 22:56:19

标签: python shell command-line

我可以使用什么命令来识别和删除形成“单词”的某些奇怪字符,例如:

í‰äó_
퀌¢í‰ä‰åí‰ä‹¢
it퀌¢í‰ä‰åí‰ä‹¢
í‰äóìgo

来自一系列文件?这些是一些例子...... 我想删除这些事件。

3 个答案:

答案 0 :(得分:2)

由于您标记了shellcommand-line,因此请转到

$ tr -cd [:graph:][:space:] < foo.txt
_

it
go

答案 1 :(得分:2)

从文件中获取数据后使用string模块:

import string
final_str = ''
for char in my_str:
    if char in string.printable:
        final_str += char

替代单行:

''.join([str(char) for char in my_str if char in string.printable])

答案 2 :(得分:1)

正则表达式如何?

类似的东西:

import re

clean_name = re.sub(r'[^a-zA-Z0-9\._-]', '', dirty_name)

将任何其他允许的字符添加到正则表达式。