我正在为Thunderbird邮件编写解析器。
输入: 我有一个带有大量电子邮件的文件(主要部分用ANSI-WINDOWS 1250编写,但内容是在utf-8或iso-8859-2中,它是用邮件的Content-Type标记写的。)
输出: 消息内容集(正文)。
这就是我的所作所为:
mail.getContent
(我想是utf-16,但我不确定内部编码)。我正在使用Charset和新的String(byte [],String(charset name)),但我没有尝试过。
我的尝试:
我该如何处理它?对我来说解码太多了,我感到头晕目眩。
输入(这是作为cp1250文件保存,但我将其转换为utf-8,):
From - Thu Dec 08 15:06:14 2011
(some mail header stuff....)
Content-Type: text/html; charset="iso-8859-2"
<table border="0" cellspacing="0" width="600"><tbody><tr><th class="ffield2"><span class="cald-word">clichéd</span> </th><td class="field1"><br>
banal; <b>banalny<b>
<br>
She made a <span class="cald-word">clichéd remark about the importance of friendship.</span>
<br>
<b>Wygԯsiԡ jakѶ banalnѠuwagꡯ wadze przyjaݮi . <br>
<b>
<b> <b><br>
</td></tr></tbody></table>
From - Thu Dec 08 15:42:09 2011
Content-Type: text/html; charset=utf-8
(some mail header stuff....)
<table border="0" cellspacing="0" width="600"><tbody><tr><th class="ffield2">nosiness</th><td class="field1"><br>
<br>
interest in somebody else's business; <b>wścibstwo<b>
<br>
Nosiness is something I can't stand, so stop asking such questions.
<br>
<b>Nie znoszę wścibstwa, więc przestań zadawać takie pytania. <b><b> <br>
<b>
</td></tr></tbody></table>