python中的TMX(Translation Memory eXchange)文件

时间:2013-12-03 16:12:56

标签: python-3.x

是否有用于在python中处理TMX(翻译记忆库交换)文件的模块,如果没有,那么另一种方法是什么?

目前,我有一个巨大的2gb文件,带有法语 - 英语字幕。甚至可以处理这样的文件,还是我必须将其分解?

谢谢!

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:0)

正如@hurrial所说,您可以使用translate-toolkit

安装

此工具包仅可通过pip使用。要安装它,请运行:

pip install translate-toolkit

用法

假设您具有以下简单的sample.tmx文件:

<tmx version="1.4">
  <header
    creationtool="XYZTool" creationtoolversion="1.01-023"
    datatype="PlainText" segtype="sentence"
    adminlang="en-us" srclang="en"
    o-tmf="ABCTransMem"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>Hello world!</seg>
      </tuv>
      <tuv xml:lang="ar">
        <seg>اهلا بالعالم!</seg>
      </tuv>
    </tu>
  </body>
</tmx>

您可以像这样解析此简单文件:

>>> from translate.storage.tmx import tmxfile
>>>
>>> with open("sample.tmx", 'rb') as fin:
...     tmx_file = tmxfile(fin, 'en', 'ar')
>>>
>>> for node in tmx_file.unit_iter():
...     print(node.getsource(), node.gettarget())
Hello world! اهلا بالعالم!

有关更多信息,请查看here中的官方文档。