我正在使用Python和imaplib从IMAP服务器获取电子邮件(支持各种IMAP服务器 - GMail等)。
我的问题是:使用IMAP BODY [INDEX]命令获取特定的身体部位,HTML附带了额外的标签。如:
(...)</a>\t\t\t\t\t\t\t\t<a>(...)
显示HTML时,标签显然是额外的:
(屏幕截图是葡萄牙语,但我认为这不相关。
我搜索了IMAP文档但发现没有任何帮助。我猜这些\ t总是跟着标签关闭(例如\ t \ t \ t \ t \ t \ t \ t),所以我可以找到标签关闭后删除它们的所有标签,但我不知道是否这根本就是一种可靠的方法。
谢谢
答案 0 :(得分:0)
我找到了一个解决方案(暂时至少)。
从IMAP呼叫响应接收数据时,有\\ r \\ n个字符分隔行。我删除了这些。
但是,我发现除了这些之外,在某些情况下还有一些字符与这些字符相结合。例如:
\\ř\\ñ\\吨\\吨\\吨\吨
如果我将\\ t与\\ r \\ n一起删除,HTML就会完美呈现。