我通过Google Cloud Vision(OCR)收到了一个utf-8编码的印度语文本文件。我使用sed
对文件进行了一些处理,现在该文件显示了奇怪的字符。
file -bi 100.txt
显示text/plain; charset=unknown-8bit
(在sed之后)
原始文件显示:
1 YYHI6808794ಹೆನರುಮಿಲ್ಕಾಗಂಡನಹೆಸರುದಿವಾಕರಮನೆನಂವಯನ್ನುವಯನ್ನು40 ಲಿಂಗಹೆಣ್ಣು
已处理的文件显示:
1YYHI6808794ಹà³à²¨à²°à³à²²à²¿à²²à³à²à²²à²à²à²àನ ಹà³à²¸à²°à³à²¨à²°à³à²¶à²²à²àಲààààààààಲàà²àààà²àಲ1 à²μà²àನà³à²¨à³40ಲ²²à²à²à²¹à³à²£à³à²£à³
这是我跑的命令:
sed 's/[]*"._,()•&[-]//g; s/^[ L\/]*//; s/ */ /g; s/ಹೆಣ್ಣು/&\n/; s/ಗಂಡು /&\n/;/^$/d;/!/d' oldfile.txt > newfile.txt
有没有办法将其恢复为原始编码?