我需要从文本中删除所有标点符号和英文字符。
我如何在Unix中做到这一点?
我试过了:
$ sed '~!@#$%^&*()_+{}[];:'\/.,<>`|ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz' <BACC.txt>without.txt
但它不起作用。
答案 0 :(得分:0)
也许tr
适合你:
tr -d [:punct:][:alpha:]
您可以列出要删除的特定字符:
tr -d [:punct:]IEAOUieaou
如果要用空格替换已删除的字符,请使用:
tr -s [:punct:]IEAOUieaou ' '