这是什么编码,如何将其转换为可以正确看到的内容?

时间:2019-04-11 11:45:37

标签: character-encoding

我正在编写一个脚本,该脚本将对流行的流媒体服务(Netfl * x)的字幕文件进行操作。

字幕文件中包含奇怪的字符,因此我无法以我的文本编辑器或Web浏览器以可读的方式显示它们。 xml编码表示UTF-8,但是某些字符不可读。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<tt xmlns:tt="http://www.w3.org/ns/ttml" xmlns:ttm="http://www.w3.org/ns/ttml#metadata" xmlns:ttp="http://www.w3.org/ns/ttml#parameter" xmlns:tts="http://www.w3.org/ns/ttml#styling" ttp:tickRate="10000000" ttp:timeBase="media" xmlns="http://www.w3.org/ns/ttml">
<p>de 15 % la nuit dernière.</span></p>
<p>if youâve got things to doâ¦</span></p>

在Vim中:

enter image description here

这是浏览器中的样子:

enter image description here 如何将其转换为可以使用的东西?

1 个答案:

答案 0 :(得分:1)

我会费力地说文件 是UTF-8编码的,就好了,而您只是在使用错误的编码来查看它。以UTF-8编码的字符À是C3 80。 ISO-8859-1中的C3是Ã,在屏幕快照中后面是80。因此,看起来您正在使用(错误的)ISO-8859编码查看UTF-8文件。

打开文件时使用正确的编码。