是否有用于在python中处理TMX(翻译记忆库交换)文件的模块,如果没有,那么另一种方法是什么?
目前,我有一个巨大的2gb文件,带有法语 - 英语字幕。甚至可以处理这样的文件,还是我必须将其分解?
谢谢!
答案 0 :(得分:2)
您可以查看以下链接:
干杯,
答案 1 :(得分:0)
正如@hurrial所说,您可以使用translate-toolkit。
此工具包仅可通过pip使用。要安装它,请运行:
pip install translate-toolkit
假设您具有以下简单的sample.tmx
文件:
<tmx version="1.4">
<header
creationtool="XYZTool" creationtoolversion="1.01-023"
datatype="PlainText" segtype="sentence"
adminlang="en-us" srclang="en"
o-tmf="ABCTransMem"/>
<body>
<tu>
<tuv xml:lang="en">
<seg>Hello world!</seg>
</tuv>
<tuv xml:lang="ar">
<seg>اهلا بالعالم!</seg>
</tuv>
</tu>
</body>
</tmx>
您可以像这样解析此简单文件:
>>> from translate.storage.tmx import tmxfile
>>>
>>> with open("sample.tmx", 'rb') as fin:
... tmx_file = tmxfile(fin, 'en', 'ar')
>>>
>>> for node in tmx_file.unit_iter():
... print(node.getsource(), node.gettarget())
Hello world! اهلا بالعالم!
有关更多信息,请查看here中的官方文档。