Question

我有一个我认为是unicode类型的文件，并希望使用sed或其他一些unix实用程序删除它们。我尝试了几个选项，由于某种原因无法删除这些字符。单行显示的测试用例（head -n1）

尝试1：

> head -n1 file1.txt | hexdump -C  # Hexdump line 1
output:
00000000  47 72 6f 75 70 c2 a0 20  20 20 53 69 67 6e 61 6c  |Group..   Signal|
00000010  c2 a0 6e 61 6d 65 c2 a0  20 20 20 20 20 20 20 20  |..name..        |
00000020  20 20 20 20 20 20 20 20  20 20 20 20 20 20 20 20  |                |
00000030  55 6e 69 74 c2 a0 20 74  79 70 65 c2 a0 44 65 73  |Unit.. type..Des|
00000040  63 72 69 70 74 69 6f 6e  c2 a0 0d 0a              |cription....|
0000004c

现在替换＆＃34; c2 a0＆＃34;上述

> head -n1 file1.txt | sed 's/\xc2\xa0//g' | hexdump -C
or
> head -n1 file1.txt | sed 's/\x{c2a0}//g  | hexdump -C 
00000000  47 72 6f 75 70 c2 a0 20  20 20 53 69 67 6e 61 6c  |Group..   Signal|
00000010  c2 a0 6e 61 6d 65 c2 a0  20 20 20 20 20 20 20 20  |..name..        |
00000020  20 20 20 20 20 20 20 20  20 20 20 20 20 20 20 20  |                |
00000030  55 6e 69 74 c2 a0 20 74  79 70 65 c2 a0 44 65 73  |Unit.. type..Des|
00000040  63 72 69 70 74 69 6f 6e  c2 a0 0d 0a              |cription....|

没有替代品发生

尝试2：使用vim

vim file1.txt
:set nobomb
:set fileencoding=utf-8
:wq

再次使用sed并且没有发生替换。如何替换或删除这些字符（十六进制＆＃34; c2a0＆＃34;）？

Answer 1

我最终使用Perl成功删除了unicode字符。

ConstraintViolationException

无法用sed或vim替换Unicode字符

1 个答案: