我正在使用Python编写一些集成两个系统的脚本。系统扫描邮箱并搜索特定主题行,然后解析电子邮件中的信息。我正在寻找的一个元素是HTML链接,然后我使用Curl将html代码写入文本格式的文本文件。
我的问题是,如果电子邮件中的文本是日文,Python中是否有任何模块会自动将该文本转换为英文?或者我将转换为字符串转换为Unicode然后解码?
以下是我所看到的一个例子。当我使用curl从URL中抓取文本时:
USB Host Stack 処理において解放されたメモリを不正に使用している
当我做一个简单的re.match来获取字符串并将其写入文件时得到:
USB Host Stack æQtk0J0D0f0ã‰>eU0Œ0_0á0â0ê0’0Nckk0O(uW0f0D0‹0
当我使用电子邮件模块
抓取电子邮件时,我也会收到以下信息>>> emailMessage.get_payload()
USB Host Stack =E5=87=A6=E7=90=86=E3=81=AB=E3=81=8A=E3=81=84=E3=81=A6=E8=A7=
=A3=E6=94=BE=E3=81=95=E3=82=8C=E3=81=9F=E3=83=A1=E3=83=A2=E3=83=AA=E3=82=92=
=E4=B8=8D=E6=AD=A3=E3=81=AB=E4=BD=BF=E7=94=A8=E3=81=97=E3=81=A6=E3=81=84=E3=
=82=8B
所以,我想我真正的问题是我必须采取哪些步骤才能使其正确转换为英语。我真的很想把第一个日文字符转换成英文字符。
答案 0 :(得分:0)
其他人写道,自然语言翻译是一个非常具有挑战性的问题。因此,请查看发送字符串以转换为服务,例如谷歌翻译,它将为您翻译它们(很差,但它总比没有好)并将它们发回。
以下SO链接显示了一种方式:translate url with google translate from python script
在你开始工作之前,你应该解决你的编码问题(unicode,uuencoding等),这样你就可以阅读和编写文本而不会破坏它。