我正在尝试使用Amazon Translate API翻译大型HTML文本,对此我有问题,因为每个请求的最大文档大小有一个限制,该限制等于5000个字节。因此,当文本较大时,我就会出错。
Amazon的解决方案是将文本分成小块,然后分别翻译每个文本。现在我正在使用正则表达式将其分成句子
string[] sentences = Regex.Split(str, @"(?<=[.!?])\s+(?=[A-Z])");
但不幸的是,它使HTML标签变得一团糟。
有人对此有解决方案吗?
我的代码如下:
public string Translate(string destinationLng, string str2Translate)
{
try
{
var req = new Amazon.Translate.Model.TranslateTextRequest();
req.SourceLanguageCode = "en";
req.TargetLanguageCode = destinationLng;
req.Text = str2Translate;
var response = _client.TranslateText(req);
return response.TranslatedText;
}
catch (Exception)
{
return str2Translate;
}
}