如何在SED命令

时间:2018-02-20 23:50:02

标签: sed encoding

我通过Google Cloud Vision(OCR)收到了一个utf-8编码的印度语文本文件。我使用sed对文件进行了一些处理,现在该文件显示了奇怪的字符。

file -bi 100.txt显示text/plain; charset=unknown-8bit(在sed之后)

原始文件显示:

  

1 YYHI6808794ಹೆನರುಮಿಲ್ಕಾಗಂಡನಹೆಸರುದಿವಾಕರಮನೆನಂವಯನ್ನುವಯನ್ನು40   ಲಿಂಗಹೆಣ್ಣು

已处理的文件显示:

  

1YYHI6808794ಹà³à²¨à²°à³à²²à²¿à²²à³à²à²²à²à²à²àನ   à²¹à³à²¸à²°à³à²¨à²°à³à²¶à²²à²àಲààààààààಲàà²àààà²àಲ1   à²μà²àನà³à²¨à³40ಲ²²à²à²à²¹à³à²£à³à²£à³

这是我跑的命令:

sed 's/[]*"._,()•&[-]//g; s/^[ L\/]*//; s/ */ /g; s/ಹೆಣ್ಣು/&\n/; s/ಗಂಡು /&\n/;/^$/d;/!/d' oldfile.txt > newfile.txt

有没有办法将其恢复为原始编码?

0 个答案:

没有答案