我有一个文章数据集。我想翻译这篇文章。为此,我找到了googletrans库。
但是我一直无法翻译我的所有文章(1648)。
我总是有错误
期望值:第1行第1列(字符0)
有时在550条会出现此错误。有时它会出现在第一篇文章中。似乎是随机的。
我从这个https://dev.xxxxxxxx.com:xxxx/api/VirtualAPI/Login中发现googletrans API的字符数限制为15k。
所以我添加了foolowing函数来截短文章长度:
def smart_truncate(content, length=12000, suffix='...'):
if len(content) <= length:
return content
else:
return content[:length].rsplit(' ', 1)[0]+suffix
我还尝试在每次迭代时重新初始化翻译器API,但问题仍然出现。
这是我翻译所有文章的代码:
for index, row in corpus.iterrows():
translator = Translator()
article = smart_truncate('article')
# translate the 'article' column
translated = translator.translate(article)
corpus['translated'] = translated.text
我希望能够翻译我的所有文章(1648),而不会出现随机错误。