标签: regex unicode grep
如何为包含ASCII以外任何字符的行格式化UTF-8文本文件,除了选择几个字符,例如。 [æÆøØåÅ]?
[æÆøØåÅ]
以下三行:
ABC ÆØÅ ABC-ÆØÅ
应该屈服:
ABC-ÆØÅ
因为笑脸在ASCII之外并且不属于额外忽略的字符。
答案 0 :(得分:0)
GNU grep似乎支持UTF-8。以下解决了OS X上的问题。
brew install homebrew/dupes/grep ggrep -P '[^\x00-\x7FæÆøØåÅ]' *.txt