从文件中删除所有非utf-8字符,终端中没有输出

时间:2015-05-18 20:34:35

标签: ubuntu utf-8 output

我是一个新的Ubuntu用户,处理一个非常大的文件,其中包含一些可以安全跳过的非utf8字符。我找到了另一个堆栈溢出问题How to remove non UTF-8 characters from text file,它使用命令

找到了删除这些字符的方法
iconv -f utf-8 -t utf-8 -c file.txt

然而,根据我的文件大小,这会输出每一行,这需要花费太多时间。我不太熟悉Ubuntu命令所以如果有人可以指导我修改该命令以抑制输出,我将不胜感激

2 个答案:

答案 0 :(得分:4)

使用shell重定向将转换输出到新文件:

iconv -f utf-8 -t utf-8 -c file.txt > new-file.txt

然后检查新文件的结尾:

tail new-file.txt

检查顶部:

head new-file.txt

答案 1 :(得分:2)

您可以将输出重定向到新文件,而不是打印终端上的每一行:

iconv -f utf-8 -t utf-8 -c file.txt > output.txt