我在这里有一个产品,与竞争对手相比,自动检测srt字幕文件的编码存在缺陷。我可以自动检测smi文件的编码,因为它的标题中有语言信息。但对于srt,我不能那样做。如何对srt文件应用此自动检测? 任何有关我可以学习作为我的第一步的算法的好参考将不胜感激。 Fyi,我的产品应该支持西欧,中欧,西里尔字母,希腊语,土耳其语,希伯来语,阿拉伯语,波罗的海语,韩语,S-中文,T-Chinese,越南,泰国。
答案 0 :(得分:2)
有很多工具可以检测文本文件的字符集(例如srt文件)。例如,在Linux机器的命令行中,您可以使用chardet:
chardet subtile_file_name.srt
此实用程序应预先安装pip(Python安装程序)。在Ubuntu:
sudo apt-get install python-pip
pip install chardet
如果您需要在应用程序中集成检测器,还可以使用开放式库来完成工作。例如,在我用Java实现的工具DualSub中,我使用了juniversalchardet。