应用错误收集

我在Unix中有一个文本文件，其中两列在第一列中包含各种语言的字符串（中文，韩语，日语，阿拉伯语，英语，法语，德语，等等）。

当前文件的编码为：

> 文件index.txt
index.txt：非ISO扩展ASCII英文文本，带LF，NEL行终止符

我被告知，该文件具有条目的子集（在第1列中），该条目使用非ASCII，非UTF8编码，并且我应该将该列中的数据切换为ASCII。如果可能的话，使用UTF8。

例如：
1.用户如何看待它：“书架<C3> que”。
2.通过vim：“Bibliothéque”。
3.少用“Bibliothèque”。

我已经尝试了很多转换和方法（连续数天），但是没有一个能按预期进行转换。

例如我试图将编码更改为UTF8：

iconv -f CP1256 -t UTF-8 index.txt.2
  770>文件index.txt.2
  index.txt.2：UTF-8 Unicode英文文本，但字符   似乎在新文件中已损坏。

但是得到了：1.通过vim：'Biblioth ﺃ¨ que'2.通过更少：'Bibliothأ¨que'。

我检查此文件包含多少非ASCii行，并在文件'index.txt.non_ascii'中获取了包含数百行的输出文件：

pcregrep --color ='auto'-n“ [\ x80- \ xFF]” index.txt> index.txt.non_ascii

我还尝试编写一个简短的脚本（在Perl中），以读取数据并将其存储为utf8，但字符串再次损坏。

如果有人可以帮助我解决这个问题，我将不胜感激。

提前谢谢！迈克