我有一堆需要清理的文本文件。实施例
`E..4B?@.@...
..9J5.....P0.z.n9.9.. ........
.k#a..5
E...y^@.r...J5..
E...y_@.r...J5..
..9.P..n9..0.z............
….2..3..9…n7…..@.yr`
有没有办法可以做到这一点?喜欢注意奇怪的模式?
答案 0 :(得分:3)
对于这个答案,我假设您可以访问标准的unix / linux工具。
您的文件可能采用某种字处理器格式。如果是这样,摆脱垃圾的最好方法是用该程序打开它。您可以找到file
:
$ file mysteryfile
mysteryfile: Composite Document File V2 Document, Little Endian, Os: Windows, Version 6.1 ....
如果这不起作用,则有一个标准的unix实用程序,用于从二进制文件中提取文本。它被称为strings
:
$ strings mysteryfile
Some
Recovered Text
...
strings
的行为可以通过多种选项进行微调。请参阅man strings
。