应用错误收集

我通过Google Cloud Vision（OCR）收到了一个utf-8编码的印度语文本文件。我使用sed对文件进行了一些处理，现在该文件显示了奇怪的字符。

file -bi 100.txt显示text/plain; charset=unknown-8bit（在sed之后）

原始文件显示：

1 YYHI6808794ಹೆನರುಮಿಲ್ಕಾಗಂಡನಹೆಸರುದಿವಾಕರಮನೆನಂವಯನ್ನುವಯನ್ನು40 ಲಿಂಗಹೆಣ್ಣು

已处理的文件显示：

1YYHI6808794à²¹à³à²¨à²°à³à²²à²¿à²²à³à²à²²à²à²à²àà²¨ à²¹à³à²¸à²°à³à²¨à²°à³à²¶à²²à²àà²²ààààààààà²²àà²àààà²àà²²1 à²μà²àà²¨à³à²¨à³40à²²²²à²à²à²¹à³à²£à³à²£à³

这是我跑的命令：

sed 's/[]*"._,()•&[-]//g; s/^[ L\/]*//; s/ */ /g; s/ಹೆಣ್ಣು/&\n/; s/ಗಂಡು /&\n/;/^$/d;/!/d' oldfile.txt > newfile.txt

有没有办法将其恢复为原始编码？

如何在SED命令

0 个答案: