Amazon Translate API,如何翻译大型HTML文本

时间:2019-03-01 09:16:13

标签: amazon-web-services translate

我正在尝试使用Amazon Translate API翻译大型HTML文本,对此我有问题,因为每个请求的最大文档大小有一个限制,该限制等于5000个字节。因此,当文本较大时,我就会出错。

Amazon的解决方案是将文本分成小块,然后分别翻译每个文本。现在我正在使用正则表达式将其分成句子 string[] sentences = Regex.Split(str, @"(?<=[.!?])\s+(?=[A-Z])"); 但不幸的是,它使HTML标签变得一团糟。

有人对此有解决方案吗?

我的代码如下:

public string Translate(string destinationLng, string str2Translate)
{
    try
    {
        var req = new Amazon.Translate.Model.TranslateTextRequest();
        req.SourceLanguageCode = "en";
        req.TargetLanguageCode = destinationLng;
        req.Text = str2Translate;
        var response = _client.TranslateText(req);
        return response.TranslatedText;
    }
    catch (Exception)
    {
        return str2Translate;
    }
}

0 个答案:

没有答案